제2회 인공지능최고위전략대화(AIStrategySummit) 개최

댓글 0

판교핫뉴스

2022. 1. 20.

2회 인공지능최고위전략대화(AIStrategySummit) 개최

부서 인공지능기반정책과, 인공지능산업팀, 정보통신방송기술정책과

 

“인공지능 경쟁력 강화를 위해 민‧관이 함께 합니다”

제2회「인공지능최고위전략대화(AIStrategySummit)」개최

- 올해부터 본격화되는 초거대 인공지능 서비스 개발 활성화를 위해 민관 협력 -

- 학습용 데이터 구축 이행안(로드맵)과 인공지능 반도체 경쟁력 강화 방안 제시 -

 

□ 과학기술정보통신부(장관 임혜숙, 이하 ‘과기정통부’)는 민‧관이 인공지능 분야의 비전을 공유하고, 전략적 협력방안을 논의하기 위해 ‘제2회 인공지능 최고위 전략대화(AI Strategy Summit)’를 1월 19일(수), 서울중앙우체국에서 개최하였다고 밝혔다.

 

ㅇ 이번 회의는 지난해 9월 7일 인공지능 분야 주요 기업 대표를 비롯해 학계‧연구계 대표 인사가 참석하여, 우리나라 인공지능 글로벌 경쟁력 강화 방안을 논의했던 ‘제1회 인공지능 최고위 전략대화’의 연속선상에서 개최되었다.

 

< 제2회 인공지능 최고위 전략대화 참석자 >

기업 KT 송재호 부사장, SKT 이상호 T3K센터장, LG AI 연구원 배경훈 원장, 삼성전자 다니엘 리 글로벌 AI 센터장, 네이버 클로바 CIC 정석근 대표, 카카오엔터프라이즈 최동진 부사장, 퓨리오사 백준호 대표, 리벨리온 박성현 대표

학계‧연구계 이성환 인공지능대학원협의회장(고려대 교수, AI혁신허브 연구책임자)

정부·공공 과학기술정보통신부 임혜숙 장관, 4차산업혁명위원회 윤성로 위원장,

한국지능정보사회진흥원 문용식 원장

□ 인공지능은 디지털 대전환 시대 국가 경쟁력의 핵심으로, 미·중을 중심으로 인공지능 기술패권 경쟁이 심화되고 있고, 글로벌 빅테크 기업들은 인공지능 분야에 천문학적인 투자를 하고 있다.

 

□ 우리 정부도 지난해 말, 글로벌 기술패권 시대에 주도권을 확보해야할 국가 필수전략기술로 인공지능을 포함한 10개 기술을 선정하고, 국가 역량을 결집할 계획을 밝힌 바 있다.

 

ㅇ 정부는 10년 내 기술주도권 확보를 목표로 기술별 특성을 고려한 육성·보호 종합전략을 구체화하고, R&D투자, 인프라·세제, 전문인력 공급 등 전방위적 지원을 강화해 나가는 한편, 국가 필수전략기술을 지속 보완·발전시킬 견고한 추진체계*도 구축해 나갈 계획이다.

 

* 장관급 필수전략기술위원회 신설, 「(가칭)국가필수전략기술 육성에 관한 법률」 제정 등 추진

 

□ 국가 필수전략기술 중 하나인 인공지능 기술에 대해 논의하는 이번 인공지능 최고위 전략대화에서는 기업과 정부가 그 동안 검토한 세가지 정책 방안이 발표되었다.

 

ㅇ 첫 번째, 제1회 전략대화의 주제였던 초거대 인공지능 생태계 활성화를 위해 분야별 전문가로 구성된 협의체 논의를 거쳐 마련된 정부의 지원 방안*을 공유하였다.

 

* 초거대 인공지능 API 개방·활용 지원 방안, 인공지능 연구개발을 위한 GPU 지원방안, 인터넷 공개 데이터 활용 방안, 기업-대학 인공지능 인력양성 협력방안

 

ㅇ 두 번째, ‘디지털 뉴딜’ 핵심사업 중 하나로 추진 중인 대규모 인공지능 학습용 데이터 구축의 로드맵을 제시하고, 데이터의 활용성과 가치를 높이기 위한 고도화 방안을 발표하였다.

 

ㅇ 세 번째, 인공지능 기술개발과 활용 확산으로 급격히 수요가 증가하고 있는 인공지능 반도체 분야에서 국가 경쟁력을 강화하기 위한 방안이 제시되었다.

주제 1 : 초거대 인공지능 생태계 활성화 지원 방안

 

□ 지난 전략대화를 통해 초거대 인공지능 활성화를 위해 중소기업 활용 기회 확대, GPU 지원 확대, 인재양성 등이 제안되었고, 후속 전문가 협의체 논의를 통해 구체적 지원 방안이 마련되었다.

 

① 대기업이 개발한 초거대 AI 모델을 활용해 인공지능 솔루션·서비스 등을 개발하려는 국내 중소기업 등에 API 사용 비용을 지원한다.

 

ㅇ 공급기업은 초거대 AI 모델 규모, 용도 등에 따라 다양한 API 상품을 수요기관에 제공하고, 수요기관은 적절한 API를 선택적으로 활용하고 바우처를 통해 비용을 지원 받게 된다.

 

② 중소기업·연구기관·대학 등에 중·대용량 GPU 컴퓨팅 자원 지원을 단계적으로 확대해 나갈 계획이다

 

ㅇ 중용량 단위(160/320TF) GPU 지원을 추가*(‘22~)하고, 컴퓨팅 자원 확대 구축(‘23년 44.3PF, ’24년 88.5PF)이 예정된 광주 인공지능 집적단지를 통한 대규모 단위(1PF이상) 지원을 검토할 계획이다.

 

* (’19)4PF<200개,20TF> → (‘20)25.7PF<883개,20/40TF> → (’21)30.6PF<1,000개,20/40/80TF>

 

ㅇ 또한, 슈퍼 컴퓨터 6호기를 인공지능에 보다 적합한 이종시스템(GPU+CPU)으로 구축(’23~)하고, 딥러닝 전용 뉴론(현재 1.2PF, GPU기반) 성능을 25PF까지 확대(~’25)할 계획이다

 

③ 인터넷에 공개된 데이터를 AI 학습용 목적으로 사용시 저작물 이용 면책 규정이 적용될 수 있도록 법적 기반 마련을 추진한다.

 

ㅇ 인공지능 개발·활용 목적의 공개된 정보 활용시 저작물 이용 면책 규정을 포함한 법률안이 발의*되어 있으며, 산업계 의견을 수렴하여 법 제·개정 과정에 적극 참여할 계획이다.

 

* 저작권법 전부개정법률안(도종환 의원, ’21.1.15.), 알고리즘 및 인공지능에 관한 법률안(윤영찬 의원, ‘21.11.24.)

ㅇ 아울러, 인공지능 학습용 데이터 구축사업을 통해 저작권을 구매하거나, 재연데이터를 제작하는 등의 방식으로 저작권 문제가 발생하지 않는 데이터의 개방을 확대해 나갈 예정이다.

 

④ 현장에 필요한 인공지능 인재양성을 위해 정부 지원 확대를 통해 기업과 대학 간 자율 협력 강화를 촉진한다.

 

ㅇ (AI융합교육) 기업이 직접 AI융합 교육과정 설계에 참여하고, 기업 전문가가 겸직을 통해 강의에 참여할 수도 있게 한다.

 

ㅇ (AI융합연구) 기업이 직면한 현장의 문제에 대해 대학-기업 공동 AI융합 프로젝트를 기획하고 하나의 팀으로 수행하도록 한다.

 

ㅇ (인재교류 및 양성) 기업과 대학간의 인재교류 및 인력양성 협력 강화를 위해 양방향 산학 교차 인턴십 활성화를 유도한다. 

 

ㅇ (대학혁신 유인) 대학별 여건과 특성에 따라 자율적인 혁신 프로그램(재직자 단기 석사, 마이크로 디그리 등)을 개설을 유도한다.

 

주제 2 : 인공지능 학습용 데이터 구축·활용 고도화 방안

 

□ 정부는 디지털 뉴딜의 일환으로 인공지능 기술 개발과 확산에 필요한 핵심요소인 인공지능 학습용 데이터를 AI Hub(aihub.or.kr)를 통해 ‘25년까지 1,300여종 구축·개방*할 계획으로,

 

* (’17~‘19)21종(기 개방) → (’20)170종(‘21.6월 개방) → (‘21)190종(잠정 ’22.상반기 개방)

 

ㅇ 고품질·대규모 인공지능 학습용 데이터의 체계적인 확보와 활용 활성화를 뒷받침할 ‘인공지능 학습용 데이터 구축·활용 고도화 방안(과기정통부, 이하 ‘고도화 방안’)’을 마련·발표하였다.

 

➊ 전략적인 데이터 축적·개방을 위해 인공지능 학습용 데이터 구축 로드맵을 제시한다.

 

ㅇ 먼저, ‘기반기술’과 ‘2대 전략분야’를 설정하고 이를 축으로 인공지능 학습용 데이터를 종적·횡적으로 확대해나갈 예정으로 한국어, 영상·이미지, 헬스케어, 제조 등 각 세부분야에 대한 구체적인 데이터 구축 목표와 방향을 제시하였다.

 

분 야 주요내용 세부분야

기반기술 여러 기술·산업에 공통되는 범용적인 성격의 인공지능 구현을 지원하는 분야 한국어, 영상·이미지

전략분야1 공익 증진에 기여할 수 있고 조기에 인공지능 확산이 기대되는 분야 헬스케어, 교통·물류, 재난·안전·환경, 농·축·수산

전략분야2 인공지능을 통한 산업·영역별 혁신을 촉진할 수 있는 분야로 점차 확장 가능 제조, 로보틱스, 법률, 교육, 금융, 지식재산, 문화·관광, 스포츠 등

 

ㅇ 이러한 로드맵에 따라, 각 분야별로 단일한 목적이나 특정한 조건·환경의 기초적인 데이터부터 복합적인 내용·상황을 담은 멀티모달 데이터 등으로 수준과 범위를 고도화함으로써, 해당 기술과 산업분야의 수준 높은 인공지능 서비스 개발을 적극 뒷받침해 나간다.

 

ㅇ 이를 이행하기 위해 과제기획, 세부추진방향 설정 등 데이터 구축 전반에서 주요 분야별로 전문성을 보유한 부처 및 전문기관 등과 적극 협력해나갈 계획이다.

 

➋ 구축·개방한 데이터의 활용 편의와 품질을 높이고 사용자 중심의 데이터 활용 환경을 조성해 나간다.

 

ㅇ 우선 일괄 다운로드가 어려운 대용량 데이터를 분할·선택 제공할 수 있도록 개선하고 컴퓨팅파워 지원을 확대하는 한편, AI Hub가 인공지능·데이터 활용의 핵심 플랫폼으로 거듭날 수 있도록 다양한 민·관 데이터 플랫폼* 연계 및 교육·실습 기능 보완 등을 추진한다.

 

* 모두의 말뭉치(국립국어원), Science-ON(KISTI), 열린데이터광장(서울시), 통합데이터지도 등

 

ㅇ 또한, 데이터 구축 단계부터 품질검증과 자문을 지원하고 데이터의 성격에 따라 지원규모와 기간을 다양화 하는 것은 물론, 보완이 필요한 기존 데이터에 대한 개선작업도 지속 진행해 나간다.

 

ㅇ 특히, 디지털 뉴딜로 추진 중인 정부의 다양한 데이터·클라우드·인공지능 활성화 사업* 및 지능정보화사업** 등과의 연계를 통해 데이터의 활용성과 가치를 높여나간다는 계획이다.

 

* 데이터 바우처, 클라우드 이용 바우처, AI+X 사업 등

** 사업 추진 시 AI Hub 데이터 활용가능성 점검 및 우선 활용 권고 등

 

ㅇ 끝으로, 데이터 구축 참여인력의 능력개발과 전문성 증진을 지원하기 위해 연 1만명 규모로 추진 중인 교육과정의 전문·관리자 비중을 점진 확대하고, 크라우드 소싱 적용분야도 데이터 수집·가공을 넘어 검수·품질관리 등 전문성이 요구되는 분야로 점차 넓혀갈 예정이다.

 

□ 정부는 이러한 고도화 방안 추진을 통해 국내 실정에 맞는 다양한 분야의 고품질·대규모 데이터를 확보하여 국내 중소·스타트업, 대학 등의 인공지능 도입 장벽을 낮추고, 전 산업·사회적인 인공지능 개발·확산을 가속화할 수 있을 것이라 기대하고 있다.

 

주제 3 : 인공지능 반도체 경쟁력 강화방안 

 

□ 정부는 「인공지능 반도체 산업 발전전략」(’20.10)을 수립하여 ’29년까지 총 1조원 규모로 추진중인 대규모 R&D 프로젝트*의 성공 가능성을 높이기 위해 산업계의 의견을 바탕으로 「인공지능 반도체 경쟁력 강화방안」을 마련하였다.

 

* 차세대 지능형반도체 개발사업(과기정통부-산업부 공동) : 10년간(’20~’29) 총 1조 96억원 투입

 

➊ 인공지능 반도체 기술력을 확보한다.

 

ㅇ 우리의 강점인 메모리 반도체 기술력을 바탕으로 차세대 인공지능 반도체의 패러다임을 혁신할 수 있는 PIM(Processing In Memory) 반도체 개발에 ’28년까지 총 4,027억원을 추가 투입한다.

 

ㅇ 최근 성장세가 두드러진 인공지능 반도체 NPU칩의 설계기술을 확보하고 패키지형 제품 생산을 지원하는 한편, 

 

ㅇ 우리가 취약한 인공지능 반도체 개발환경을 제공하는 SW 개발도 추진한다.

❷ 개발된 인공지능 반도체의 초기시장 창출을 지원한다.

 

ㅇ 개발된 인공지능 반도체를 다양한 국가 R&Dㆍ실증 사업에 적용하여 성능검증을 지원하고,

 

ㅇ 광주 AI 직접단지 데이터센터에 도입 추진하여 민간 데이터 센터까지 확산될 수 있도록 지원한다.

 

❸ 인공지능 반도체 설계툴 공동활용과 전문인력 양성을 강화한다.

 

ㅇ 기술개발 과정에서 많은 비용이 수반되는 ‘인공지능 반도체 설계툴’ 공동 활용을 지원하여 기업의 부담을 경감한다.

 

ㅇ AI 반도체 관련 전문인력 부족 문제 해소를 위해 학사부터 석ㆍ박사까지 다양한 수준의 전문인력을 양성하고 재직자의 역량강화도 병행한다.

 

< AI반도체 관련 인력양성 프로그램 운영계획(안) >

구 분 대 상

인공지능 반도체 융합전공 실무형 인력 양성을 위해 AI반도체 관련 학제(전기전자공학, 컴퓨터 공학, 물리학 등)간 연계된 학부 연합전공 신설

(’22년 3개 학교 선정)

대학 ICT 연구센터(ITRC) 기존 3개(서강대, KAIST, 인하대) 센터 → 시스템SW 분야 1개 신설(’22년)

PIM 설계연구센터 PIM 반도체 설계분야 학사, 석ㆍ박사 교육과정(콘텐츠, 커리큘럼 등) 개발ㆍ운영, 반도체 관련기업 재직자 교육 및 산·학·연 공동연구

(’22년 1개 센터 신설 예정)

시스템반도체 기존 5개(서울대, 성균관대, 포항공대, 연세대, 중앙대) 센터 지속 지원

융합전문인력 양성센터

 

□ 정부는 오늘 발표·논의된 정책들이 기업 등에 실질적 도움이 되고 인공지능 생태계에 활력을 불어 넣을 수 있도록 관계부처, 기업 등과 긴밀히 협조해 나갈 예정이다.

 

□ 임혜숙 장관은 “인공지능 전략대화를 통해 기업과 정부가 함께 논의해가며 정책 실현 방안을 구체화 했다는 점에서 의미가 매우 크다”며,

 

ㅇ “향후에도 우리나라의 인공지능 경쟁력 확보를 위해 민・관이 함께 고민하고, 우리 기업이 글로벌 무대에 우뚝 설 수 있도록 정부도 정책적 지원에 최선을 다하겠다.”라고 말하였다.

 

※ 붙임1. 제2회 인공지능 최고위 전략대화 개요

붙임2. 초거대 인공지능 생태계 활성화 지원방안

붙임3. 인공지능 학습용 데이터 구축·활용 고도화 방안(요약)

붙임4. 인공지능 반도체 경쟁력 강화방안

붙임5. 민간 기업 참석자 발언 요지

별첨. 인공지능 학습용 데이터 구축·활용 고도화 방안

 

 

 

붙임1  제2회 인공지능 최고위 전략대화 개요

 

□ 배 경

 

ㅇ 민·관이 인공지능 추진전략을 공유하고, AI·데이터 경제 선도를 위한 협력방안을 논의하기 위해 인공지능 대표 협의체 운영

 

※ 인공지능 최고위 전략대화 1차회의(‘21.9.7)를 개최, 초거대인공지능생태계활성화 방안 논의

 

□ 회의개요(안)

 

ㅇ (일시/장소) ’22.1.19(수) 10:00 ~ 12:00 / 서울중앙우체국

 

ㅇ (참석자) 인공지능 분야 민‧관 대표

 

※ [정부·공공] 과기정통부 장관, 4차위 위원장, NIA 원장

[기업·학계] KT, SKT, LG, 삼성전자, 네이버, 카카오, 퓨리오사, 리벨리온, AI대학원협의회장

 

□ 논의주제(안)

 

① 초거대 인공지능 생태계 활성화 지원 방안(1차회의 후속조치 보고)

 

※ 초거대 인공지능 API 개방·활용, GPU 지원방안, 인터넷 공개데이터 활용 방안, 기업-대학 인공지능 인력양성 협력방안

 

② 인공지능 학습용 데이터 구축·활용 고도화 방안

 

③ 인공지능 반도체 경쟁력 강화방안

 

④ 인공지능 분야 주요 추진전략

 

□ 세부 진행계획(안)

시간 주요 논의내용 비고

9:40~10:00 ∙사전 환담

10:00~10:05 ∙인사, 참석자 소개

10:05~10:10 ∙장관님 말씀

10:10~10:30 ∙1차회의 후속조치 현황 공유

- 초거대 인공지능 생태계 활성화 지원 방안

10:30~11:10 ∙2차회의 주요 논의사항 발표

- 인공지능학습용데이터 구축·활용 고도화 방안

- 인공지능 반도체 경쟁력 강화방안

11:10~11:50 ∙인공지능 선도국가 도약을 위한 추진전략 논의

11:50~12:00 ∙마무리 말씀

붙임2  초거대 인공지능 생태계 활성화 지원 방안

 

󰊱 초거대 인공지능 API 개방·활용 지원

초거대 AI 모델을 활용해 인공지능 솔루션·서비스 등을 개발하려는 국내 중소기업 등에 API 사용 비용을 지원(’22년 85억원)

 

ㅇ (API 활용 인프라) 공급기업은 초거대 AI 모델 규모, 용도 등에 따라 다양한 API 상품을 자체 인프라와 운영시스템으로 제공

 

- 운영기관이 API 상품기준을 제시하고, 기준 충족 상품을 보유한 공급기관은 자유롭게 참여 가능

 

ㅇ (수요-공급 구조) API 상품 유형과 가격은 자율적으로 설정·운영

 

※ [공급기업] 시장 요구를 적극 반영하여 모델 크기에 맞는 다양한 API 상품을 개발·출시

[수요기관] 여러 API 모델 중에 수요기관의 요구에 맞는 API를 선택·활용

 

ㅇ (수요기관 지원) 다수의 수요기관에 API 테스트 기회 제공 및 민간 부담 완화(’22년 85억원)

 

※ [1단계]API 사용 활성화를 위한 소형 바우처 지원(자부담 면제 추진)

[2단계]소형 바우처 지원 대상 중 추가 자원 필요시, 평가를 통해 대형 바우처 지원(민간매칭 추진)

 

󰊲 인공지능 연구개발을 위한 GPU 자원 지원

중소기업·연구기관·대학 등에 중·대용량 GPU 컴퓨팅 자원 지원을 단계적으로 확대하고, 컴퓨팅 자원 확대 구축

 

ㅇ (지원단위 확대) 고성능 컴퓨팅 지원사업에 중용량 단위(160/320TF) GPU 지원을 추가*(’22~)

 

* (’19)4PF<200개,20TF> → (‘20)25.7PF<883개,20/40TF> → (’21)30.6PF<1,000개,20/40/80TF>

 

ㅇ (컴퓨팅 자원 확대) 광주 인공지능 집적단지에 컴퓨팅 자원을 확대 구축(‘23년 44.3PF, ’24년 88.5PF)하고 대규모 단위(1PF이상) 지원을 검토

 

- 슈퍼 컴퓨터 6호기를 인공지능에 보다 적합한 이종시스템(GPU+CPU)으로 구축(’23~), 딥러닝 전용 뉴론(현재 1.2PF, GPU기반) 25PF까지 확대(~’25)

󰊳 인터넷 공개 데이터 활용

인터넷에 공개된 데이터를 인공지능 학습용 목적으로 사용시 저작물 이용 면책 규정이 적용될 수 있도록 법적 기반 마련 추진

 

ㅇ (법·제도 개선) 산업계 의견을 수렴하여 인공지능 개발·활용 목적으로 인터넷에 공개된 정보 활용시 저작물 이용 면책 규정이 적용되도록 법* 제·개정에 적극 참여

 

* 현재 저작권법 전부개정법률안(도종환 의원, ’21.1.15.), 알고리즘 및 인공지능에 관한 법률안(윤영찬 의원, ‘21.11.24.)을 통해 

 

※ 현장에서는 공개된 소셜 데이터 등을 수집(크롤링)하여 다양하게 활용하고 있으며, 현행 저작권법 상 ‘공정이용’ 조항 적용으로 저작권 침해가 되지 않는다는 견해가 있으나, 상황에 따라 해석이 달라질 수 있어 해당 조항으로는 불분명하다는 지적이 제기

 

ㅇ (데이터개방확대) 인공지능 학습용 데이터 구축사업을 통해 저작권을 구매하거나, 재연데이터를 제작하는 등의 방식으로 저작권 문제가 발생하지 않는 데이터의 개방 확대

 

󰊴 기업-대학 인공지능 인력양성 협력 강화

현장에 필요한 인공지능 인재양성을 위해 정부 지원 확대를 통해 기업과 대학 간 자율 협력 강화를 촉진

 

* 인공지능융합혁신인재양성사업 : ‘22~’26, 총사업비 472.5억원 / 총 9개 대학 지원

 

ㅇ (AI융합교육) 기업이 직접 AI융합 프로젝트 기반의 교육과정 설계에 참여하고, 필요 시 기업 재직자가 겸직을 통해 직접 강의 운영

 

ㅇ (AI융합연구) 기업이 직면한 현장의 문제에 대하여 기업과 대학이 공동으로 AI융합 프로젝트 기획·발굴하고 하나의 팀으로 연구 수행

 

ㅇ (인재교류 및 양성) 기업과 대학간의 인재교류 및 인력양성 협력 강화를 위해 양방향 산학 교차 인턴십 활성화 유도 

 

ㅇ (대학혁신 유인) 대학별 여건과 특성에 따라 자율적인 혁신 프로그램* 개설·운영 유도

 

* (예) 재직자 전담 AI단기 석사 트랙 별도 운영, 마이크로 디그리 도입(인증서 발급, 학점연계 등) 등

붙임3  인공지능 학습용 데이터 구축·활용 고도화 방안(요약)

 

인공지능 학습용 데이터 구축 추진배경

 

□ 정부는 ‘인공지능 국가전략’(’19.12), ‘디지털 뉴딜’(’20.7)을 통한 디지털 전환 가속에 대비하며 대표 프로젝트로 ‘데이터 댐’ 구축 본격화(’20.9~)

 

ㅇ 전 산업·사회적인 인공지능 도입·확산의 핵심자원이 될 인공지능 학습용 데이터 구축·개방에 ’25년까지 2.5조원의 대규모 투자 계획

 

※ ’17~‘19년 21종 → ’25년까지 총 1,300여종 구축·개방 추진

 

< (참고) 인공지능 학습용 데이터 구축의 필요성 >

◇ 인공지능 모델의 데이터 학습량은 성능과 비례하며, 각 분야로 인공지능 기술이 확산·발전되기 위해서는 분야별 고품질·대규모 인공지능 학습용 데이터 확보가 필수

 

◇ 단, 데이터 수집·가공에 시간·비용 소요*가 커서 중소·스타트업, 대학 등의 인공지능 도입·확산에 장벽이 되므로, 국내 실정에 맞는 데이터의 양적·질적 확충 요구 증대

 

* 국내 AI·데이터 기업은 AI 개발 시간의 80%, 비용의 75%가 데이터 확보에 소요된다고 응답(‘20, NIA)

 

➡ 지속 제기되는 데이터 부족 문제 해소와 디지털 전환 가속화를 위한 체계적인 데이터 자원 확보·활용을 뒷받침할 전략방안 마련 필요

 

데이터 구축·개방 현황 및 주요성과

 

□ (현황) 기존 21종(‘17~’19)에 더하여 ’20년 구축한 170종 4.8억건*의 데이터를 ’21.6월 개방하였고, ’21년 190종 추가 구축(잠정 ‘22.上 개방)

 

* 다양한 수요분석과 전문가 검토를 통해 음성·자연어, 비전, 헬스케어 등 8개 분야 선정·구축

 

□ (주요성과) 데이터 추가개방 후 약 6개월간 6만여 건의 다운로드와 함께, 이를 활용한 다양한 인공지능 혁신서비스 창출

 

< AI Hub 데이터를 활용한 혁신서비스 창출 사례 예시 >

라이드플럭스 · 자율주행 데이터 기반 무인이동 서비스 도입·고도화 및 지역 확대

 

※ 제주관광지 자율주행 셔틀(‘21.8), 세종정부청사 승객이동 서비스(’21.9) 운영

아워랩 · 수면 질 분석 데이터를 활용한 수면자세 감응형 수면무호흡 치료기기 개발

 

※ 식품의약품안전처 의료기기 품목허가 취득(‘21.2)

씨유박스 · 개인동의 기반 안면이미지 데이터를 활용한 위변조 감지 알고리즘 개발

 

※ 국내 기업 최초 관련 기술 국제표준(ISO/IEC 30107-3) 인증 획득(‘21.7)

 

ㅇ ‘20년 추경 등을 통한 데이터 구축 과정에 기업·대학·병원 등 571개 기관과 청년·경력단절여성 등 4만여명 이상의 인력 참여

 

※ 데이터 품질 강화를 위해 데이터 구축 전과정에 활용할 수 있는 품질기준도 마련·적용(’20.10~)

고도화 방안 추진방향 및 비전

 

□ (추진방향) 충분한 과제수요*와 구축·활용 주체들의 개선·보완 의견을 토대로, 1,300종 데이터의 전략적 구축방향 설정과 활용 활성화 유도

 

* 디지털 뉴딜 추진 후 산·학·연 각 계 수요조사를 통해 3천3백종 이상의 데이터 수요 확보

 

□ (비전·목표 및 과제)

 

비전

 

목표

 

과제

 

추진과제

 

1 데이터 구축·개방 로드맵 수립·이행

 

󰊱 체계적 데이터 확보를 위한 방향과 전략을 제시합니다

 

“기반기술 + 2대 전략분야를 축으로 종적·횡적 확장”

 

① (기반기술) 한국어, 영상·이미지 등으로 여러 기술·산업의 공통 기술로 활용되는 범용적 성격의 인공지능* 구현을 지원하는 분야

 

* 시각·청각·인식·동작 등을 비롯하여 다양한 분야에서 활용될 수 있는 공통 기술

 

② (전략분야1) 헬스케어·교통·안전 등 공익 증진에 기여할 수 있고, 조기에 인공지능 확산과 성과 창출을 기대할 수 있는 분야

 

③ (전략분야2) 인공지능을 통한 산업·영역별 혁신을 촉진할 수 있는 분야

 

※ 로드맵 수립을 위한 정책연구 추진 및 전문가, 데이터 활용기업, 개발자 등 의견 지속 수렴(’20.10~)

󰊲 시장이 원하고 국가가 필요로 하는 데이터, 이렇게 구축됩니다

 

구 분 목 표 구축 방향

단기(~‘23) 중기(~’25)

 

기반기술 한국어 다양한 분야·상황에 적용될 한국어 인공지능 개발 지원 단일한 환경, 특정 조건하의 음성·대화·질의응답·번역 등 기초데이터 확보 저음질·다화자 음성, 다양한 목적·상황별 복합 정보로 고도화 

 

영상· 포괄적 영상·이미지 확보로 관련 기술 연구 선도 객체·공간 인식을 위한 다양한 형태·행동·환경 데이터 확보 대규모 복합 상황 및 공간 인식을 위한

이미지 복합 정보로 고도화

 

전략 분야1 헬스케어 인공지능 기반 질병진단·치료 기기·서비스 개발 지원 질병판독·진단 지원, 수면·건강관리 및 임산부 등 기초데이터 확보 질병 재발·악화 등 예측, 의료환경(병원안전) 및 소외계층 데이터 등 확장

 

교통·물류 작동이 불필요한 수준의 자율주행, 스마트 물류 실현 다양한 도로환경 객체, 교통상황, 차량 내외부 및 기초 물류데이터 확보 각종 이상상황, 도로 외 공간 객체·상황과 물류과정 전주기 데이터로 확대

 

재난·안전·환경 인공지능 기반 재난·재해예측, 선제적 대응체계 마련 개별재난, 고위험 분야 인지 및 환경(피복·산림 등) 기초데이터 확보 복합재난, 각종 생활 안전사고 예측·인지 및 기후변화 데이터 등 고도화

 

농·축·수산 자율형 스마트 농·축·수산 국내 주요 작물 및 축종·어종별 생육·행동 기초데이터 확보 생산, 질병관리 및 유통·소비 등 전주기 데이터로 확대

서비스 개발과 확산

 

전략분야2 제 조 공정 최적화, 지능형 제조솔루션 개발을 위한 공정·품질 정보 등

로보틱스 용도·산업별 로봇 기술 개발·고도화를 위한 인지·모션 데이터 등

법 률 법률 지식·접근성 증진, 서비스 지능화를 위한 법령·용어·판례 등

교 육 맞춤형·지능형 교육을 위한 분야별 교재, 학습분석 정보 등

금 융 정보 비대칭 해소, 서비스 개발·고도화를 위한 투자분석정보, 용어 등

지식재산 특허상담, 유망기술 예측을 위한 특허·기술·분쟁·거래 정보 등

문화·관광 지능형 문화·관광 서비스를 위한 이미지, 지식DB 등

스포츠 경기력 향상, 전술 고도화 등을 지원할 영상·이미지, 각종 규칙정보 등

➡ 상기 예시분야 외 인공지능 도입·확산을 위해 전략분야 지속 발굴·확장

☞ 매년 변화하는 정책환경을 반영하여 세부 추진계획 보완 및 차년도 구축과제 기획·선정 추진

 

󰊳 로드맵 이행 체계를 갖추어 나갑니다

 

ㅇ 주요 영역별 전문성을 보유한 부처·전문기관이 기획위원회 참여를 통해 과제기획, 추진방향 설정 등 구축·활용 전반을 주도

 

➊ 사례1 해당 분야 전문성을 갖춘 농식품부가 기획-구축-활용을 주관하는 방식 도입·적용(‘22) 후 수요에 따라 분야 확산

: 농축산

➋ 사례2 과기정통부-문체부(국립국어원) 간 상호 전략적인 데이터 기획-구축을 위한 협력체계 운영, 데이터 연계 등 추진

: 한국어

2 구축 데이터의 활용성과 가치 증진 지원

 

󰊱 쉽게 접근하고, 편리하게 활용할 수 있도록 합니다

 

ㅇ (클라우드 토탈서비스) 활용빈도가 높은 일부 데이터를 다운로드 없이 클라우드 상에서 가공, 컴퓨팅자원 이용 등이 가능토록 지원(’22~)

 

※ 장기적으로 AI Hub(스토리지)를 광주 데이터센터로 이관, 컴퓨팅자원 등 원스톱 제공(‘23~)

 

ㅇ (데이터 접근성 개선) 이용자 편의 증진을 위한 개선방안 시범운영

 

데이터 대용량의 데이터를 필요한 만큼만 내려 받아 활용할 수 있도록 소규모·중규모(1~20%) 버전 데이터 제공 병행(‘22~)

분할제공

 

객체 이용자가 원하는 객체만 선택하여 다운로드 할 수 있도록 데이터에 포함된 개별 객체를 검색하여 부분 다운로드 제공(‘22~)

선택제공

 

데이터 네트워크 환경이 열악한 이용자도 대규모 데이터를 자유롭게 활용할 수 있도록 저장매체 기반 ‘주문-대여 서비스’ 제공(‘22~, 자율주행 분야 시범)

딜리버리

 

ㅇ (데이터 활용·환류) 구축된 데이터를 서비스 개발에 활용하면서 파생된 데이터를 AI Hub에 축적·개방하는 시범서비스 운영(’22~)

 

ㅇ (AI Hub 연계·확장) AI Hub 데이터가 자유롭게 수정·재가공되어 확산되도록 기업 플랫폼 게시 허용 및 결과물 AI Hub 공유 추진(’22~)

 

 

 

ㅇ (AI Hub 기능 고도화) 핵심데이터 중심으로 상시 경진대회(리더보드)를 운영하고, 교육·실습자료 탑재 및 커뮤니티 기능 강화(’22~)

 

ㅇ (개인정보보호 강화) 주기적 데이터 검증과 함께 ‘개인정보 신고제’를 도입하고(’22~), 유형별 가명·익명처리 가이드라인을 마련·적용(’22~)

 

※ ‘개인정보 보호·활용 기술 R&D 로드맵’에 따라, 데이터 유형별 개인정보 탐지 등 기술개발 및 활용 지원(‘22~)

󰊲 다양한 정부 지원사업과 연계하여 활용 가치를 높여갑니다

 

ㅇ (D.N.A. 지원사업간 연계) 디지털 뉴딜 등을 통해 추진 중인 다양한 데이터-클라우드-AI 지원사업을 연계한 패키지형 지원 추진(’22~)

 

< 연계 지원 체계도(안) > * (예시) A기업, B기업

 

 

ㅇ (정부 지능정보화사업 연계) 과기정통부 내 지능정보화사업 등과 우선 연계하고, 향후 타 부처 지능정보화사업과 연계 확대 추진(‘22~)

 

ㅇ (타 사업⟵데이터 제공) 인공지능 R&D, AI+X 등 인공지능 융합사업 추진 시 AI Hub 데이터 활용 확대 지원 및 일부 의무화 검토(’22)

 

󰊳 믿고 쓸 수 있는 양질의 데이터로 만들어 갑니다

 

ㅇ (선제적 품질관리) 데이터 구축 중간단계부터 인공지능 모델학습을 병행하고, 오류 점검·보완 등을 위한 사전검증 및 자문 실시(’22~)

 

ㅇ (기존 데이터 고도화) 추가·보완이 필요한 데이터를 발굴·고도화하는 ‘기 구축 데이터 고도화’ 과제 유형 신설 추진(‘22)

 

ㅇ (맞춤형 데이터 구축) 데이터 성격과 구축 난이도 등을 고려해 지원규모, 구축기간을 다양화하고 별도 운영·평가체계 마련·적용(‘22~)

 

ㅇ (데이터 신뢰성 확보) 데이터 수집-가공-개방 각 과정의 적법성, 투명성 점검 및 데이터 이력 관리 방안 등 도입 추진(’22~)

 

󰊴 데이터 구축에 함께한 분들의 성장을 지원합니다

 

ㅇ (단계별 교육 활성화) 일반라벨러-전문라벨러-관리자 등 수준별 맞춤형 교육을 1만여명에 제공(~‘21.12)하고, 전문가·관리자 과정 점진 확대

 

ㅇ (타 교육과정 연계) 데이터 구축·활용 저변을 확대하고, 데이터 구축 경험을 관련 분야 경력으로 발전시키도록 학교·직업교육 등 연계(’22~)

 

ㅇ (크라우드소싱 적용 분야 확대) 단순 데이터 수집, 가공 작업에서 데이터 검수·품질관리 등 전문성이 필요한 분야로 확대 추진(‘23~)

붙임4  인공지능 반도체 경쟁력 강화방안

◇ 인공지능 반도체(NPU)는 아직 초기단계의 시장으로, 우리나라 NPU의 성능향상과 수요창출을 통해 국가 AI반도체 및 AI산업 전반의 경쟁력 강화 추진

1 글로벌 시장 동향

o 美 NVIDIA는 그래픽 처리(단순 반복계산)용 GPU를 딥러닝에 적합한 형태로 개선한 GP-GPU를 기반으로 AI반도체 시장을 선점

 

※ AI 개발자가 손쉽게 프로그래밍하고, 반도체 성능을 최대한으로 활용할 수 있게 도와주는 시스템SW 플랫폼 'CUDA'를 제공하여 AI 반도체 생태계 전반을 장악

 

o 한편, GPU보다 인공지능에 최적화*된 AI반도체(NPU)가 최근 시장을 확대중이나, NVIDA 같은 SW개발환경 부족으로 본격 확산은 미흡

 

* GPU의 발열, 전력효율 등 기술적 한계 극복 및 가격경쟁력 강화 추진 중

※ 그래프코어(IPU), 테슬라(D1), 애플(A15), 구글ㆍ아마존(데이터 센터용 칩) 등

 

2 국내현황 및 당면과제

 

o 반도체는 수출의 약 20%(’20년 1,002억불)를 차지하는 핵심산업으로 메모리 분야는 세계 1위이나 시스템 반도체는 아직 경쟁력이 부족

 

※ 한국 ’20년 글로벌 반도체 시장 점유율(OMIDIA) : 메모리 반도체(56.9%), 시스템 반도체(2.9%)

 

o AI 확산에 따라 시스템 반도체 시장 중 AI 반도체 비중 확대 전망

 

※ 시스템 반도체 시장 중 AI 반도체 비중(Gartner, KISDI) : 8%(’20) → 31.3%(’30)

 

- 우리는 ‘AI반도체 산업 발전전략(’20.10)’과 ‘K-반도체 전략(’21.5)’을 수립, 국산 AI반도체(NPU)에 대규모 투자 착수

 

◇ 당면과제

 

▪(기술력) (HW)국산 AI반도체 시제품이 출시되고 있으나 선도국 대비 낮은 기술수준 극복 필요

(SW)시스템SW 역량 부족, SW개발자에게 편리한 개발환경 제공 미흡

 

 

▪(성공사례) 국산 AI 반도체가 적용된 대표적 제품ㆍ서비스 성공사례 부족

→ 국산 제품의 성능ㆍ호환성에 대한 신뢰성 부족

 

▪(인력ㆍ기업환경) 전문인력 부족, 중소 AI반도체 팹리스 산업 생태계 취약

3 추진과제

◇ 지금은 국산 NPU 개발ㆍ상용화 시작단계로, AI반도체 세계시장 선점을 위해 기술력 향상과 국산 반도체 우수성을 입증할 성공사례 창출 필요

 

⇒ 이를 위해 ①세계최고 수준의 HWㆍSW 개발 및 상용화, ②국산 AI 반도체 적용 성공사례 창출, ③인력양성ㆍ기업지원 등 산업 활성화 환경조성 추진

 

󰊱 AI 반도체 기술력 확보

 

o (AI 반도체 R&D) 메모리 기술력을 바탕으로 차세대 인공지능 반도체의 패러다임을 혁신할 수 있는 PIM(Processing In Memory) 반도체 추가 개발

 

- NPU 설계기술 강화 및 패키지형 제품(SoCㆍ보드ㆍ서버) 개발 지원 지속

 

※ NPUㆍPIM 개발에 약 1조 5,538억원을 투입(’19∼’29)하여 IP(3개), SoC(18개), 보드(1개), 서버ㆍ디바이스(4개) 등 26개 반도체 개발지원

 

o (디바이스용 AI반도체) 사용되는 AI 모델을 특성에 따라 카테고리화하고(영상, 음성, 언어, 복합 등), 수요ㆍ활용 용도에 특화된 디바이스용 AI반도체 개발

 

- 성공 가능성이 높은 ‘영상’분야 우선 추진 후, 음성ㆍ언어 등으로 확대

 

※ 특화 분야별 칩 개발 계획 : (’20년∼) 영상인식 분야 반도체 18개 개발, (’23년 이후) 영상ㆍ음성 등 복합인식 분야 반도체 5개 개발

 

o (AI반도체 SW) 편리한 AI서비스 개발환경을 제공할 수 있도록 국내 산·학·연 전문가를 총 결집하여 ‘AI 반도체 SW 개발사업' 신설 추진

 

- 영상인식, 언어처리 등 응용분야별 특화 SW 플랫폼, 공통 라이브러리*, SWㆍ라이브러리 간 연동규격 등 개발 및 공유

 

* SW 플랫폼에서 공통적으로 이용하는 함수·연산의 집합(수학함수, 딥러닝, 병렬처리 등)

 

󰊲 AI 반도체 수요 창출

 

o (AI 반도체 적용·실증) 유망 AI 서비스·디바이스에 국산 NPU를 탑재하는 R&Dㆍ실증을 통해 국산 NPU 성능검증 및 초기시장 창출

 

- AI+X, 5G MEC, 스마트공장 등 ’22년 추진예정 R&Dㆍ실증사업과 연계

< AI 반도체 기반 D·N·A 융합서비스 실증 아이템(안) >

서비스 주요 내용

화학재난 화재 영상분석*을 통한 유해 화학물질 식별ㆍ확산추이 예측('22~'24년, 42억원)

* 불의 색, 연기 형태ㆍ위치 등

산림관리 소나무재선충병*을 전파하는 매개 곤충 이동패턴 분석 및 확산방지(’22∼’24년, 54억원)

 

* 매개 곤충(하늘소)을 통해 나무에 침투한 재선충이 수분과 영양분을 흡수하며, 나무는 말라죽음

헬스케어 디지털 의료기기*를 활용한 생체신호** 데이터 분석 및 건강진단(’22~’23년, 10억원)

* 웨어러블 디바이스, 패치 등 / ** 체온, 혈압, 심전도, 맥박, 혈당 등

시니어 헬스 심뇌혈관 발병 지표* 추적을 통한 질환 사전예측ㆍ진단(’22~’26년, 93.5억원)

* 혈중 콜레스테롤 농도, 체내 염증수치, 혈소판 수치 등

스마트공장 고소음 제조현장 內 기계ㆍ로봇ㆍ설비 음성제어 시스템 개발(’22∼’25년, 총 27.79억원)

실내 AR 건물 내부에서 활용 가능한 영상인식 기반 AR 네비게이션 서비스(’22~’23년, 14억원)

네비게이션

 

o (데이터센터 적용) 광주 인공지능 집적단지 데이터센터(’23∼)에 성능검증을 거쳐 국산 AI 반도체를 도입하고, 향후 민간 데이터센터로 확산

 

- AI반도체ㆍ클라우드 기업 간 협업을 통해 국산 AI 반도체를 활용한 클라우드 서비스 플랫폼 개발*

 

* 클라우드 서비스에서 이기종 AI반도체 활용, AI반도체 가용 리소스 관리 기술 등 

 

o (협력체계) AI반도체 생태계 조성을 위해 국내동향 공유, 협력 방안을 모색하는 ‘수요-공급 기업 협의체’ 구성(정부, 수요ㆍ공급기업, 학계, 연구계 등)

 

󰊳 AI 반도체 산업 활성화 환경조성

 

o (기업지원) AI 반도체 설계 자동화 SW 풀 구축 및 중소 팹리스 기업이 온라인으로 공동활용* 가능하도록 지속 지원(AI반도체 클러스터)

 

* ’19년부터 총 23종의 설계SW 풀을 구축하여 중소 팹리스 기업에 제공 중

 

o (PIM HUB 구축) PIM 등 반도체 신기술 개발 시 기업의 애로사항 지원 및 설계자산(IP) 풀 구성ㆍ공동검증을 위한 ‘PIM 설계연구센터(HUB)’ 운영

 

※ PIM 예타사업 지원 중심으로 선 구축 후, AI반도체 산업 전체로 역할ㆍ범위 확대

 

o (인력양성) AI반도체 전문인력 부족 문제 해소를 위해 학사부터 석ㆍ박사까지 다양한 수준의 전문인력을 양성하고 재직자 역량강화 병행

 

※ ①(석박사) ITRC : 기존 3개(서강대, KAIST, 인하대) → 시스템SW 분야 1개 신설(’22년)

시스템반도체 융합전문인력 양성센터 5개(서울대, 성균관대, 포항공대, 연세대, 중앙대)

②(학사) AI 반도체 융합전공 개설 : ’22년 3개 대학 선정 예정

③(전문 연구인력) AI 반도체 SW 인력양성 사업 신설(’23년)

PIM 설계연구센터 교육프로그램(학부생ㆍ석박사ㆍ재직자) 운영

 

붙임 AI 반도체 기반 D·N·A 융합서비스 실증 아이템(안)

◈ 재난대응

▪(화학재난) 사고현장의 화재특성(불의 색, 연기 형태ㆍ위치 등) 분석을 통한 ①화학물질 종류 식별 및 ②맞춤형 초동 대응체계 구축

 

※ ‘부처협업 기반 AI확산 사업’(’22∼’24년, 총 42억원)

▪(산림관리) 소나무재선충병 발생현황, 전파 매개 곤충 이동패턴 등을 분석하여 산림 전염병의 확산예측 및 대응 시스템 개발

 

※ 매개 곤충(하늘소)을 통해 나무에 침투한 재선충이 수분과 영양분 흡수하며, 나무는 말라죽음

 

※ ‘부처협업 기반 AI확산 사업’(’22∼’24년, 총 54억원)

 

◈ 복지증진ㆍ헬스케어

▪(정신건강) 카메라ㆍ센서 데이터(영상, 음성, 텍스트 등)를 바탕으로 노약자ㆍ아동의 감정을 인식하고 표현하는 알고리즘 및 교감형 소셜로봇 개발

 

※ ‘스마트 엣지 디바이스 기술개발’ (’22~’25년, 총 73.5억원)

▪(헬스케어) 다양한 종류의 디지털 의료기기(웨어러블 디바이스, 패치 등)에서 측정되는 생체신호* 데이터의 취합ㆍ분석 및 건강관리 플랫폼 개발

 

* 체온, 혈압, 심전도, 맥박, 혈당 등

 

※ ‘비대면 비즈니스 핵심기술 개발사업’ (’22~’23년, 총 10억원)

▪(시니어 헬스) 노인에 치명적인 심뇌혈관 발병 징후와 관련성이 높은 건강지표*의 개인별 추적ㆍ분석을 통한 질병 예측ㆍ진단 서비스

 

* 혈중 콜레스테롤 농도, 체내 염증수치, 혈소판 수치 등

 

※ ‘스마트 엣지 디바이스 기술개발’ (’22~’26년, 총 93.5억원)

 

◈ 디지털융합 산업

▪(스마트공장) 고소음 제조 현장에서도 기계ㆍ로봇ㆍ설비 등을 제어할 수 있는 음성 제어 시스템 개발 

 

※ ‘스마트제조혁신기술개발사업’(’22∼’25년, 총 27.79억원)

▪(지능형 CCTV) 주ㆍ야간 환경에서 객체의 변형ㆍ가려짐에 강인하며, 음향(차량사고, 비명 등)을 복합인식하는 고성능ㆍ저전력 지능형 CCTV

 

※ ‘인공지능반도체 응용기술개발사업’ (’22~’24년, 총 33억원)

▪(자율주행차) 자율주행 레벨4급의 인공지능 프로세서 개발 및 서비스 실증

 

※ ‘자율주행용 인공지능반도체 핵심기술 개발사업’ (’22~’25년, 총 390억원)

▪(실내 네비게이션) GPS 신호 수신이 제한되는 건물(다중이용시설) 내부에서 활용 가능한 영상인식 기반 AR 네비게이션 서비스 개발

 

 

※ ‘비대면 비즈니스 핵심기술 개발사업’ (’22~’23년, 총 14억원)

 

붙임5 민간 기업 참석자 발언 요지

KT (송재호 부사장)

ㅇ 초대규모 AI 인프라 집중 투자로 미래 핵심경쟁력 확보

 

- 한국형 초거대 AI 모델 구축 및 AI 컴퓨팅 인프라 지속 투자

 

- '22년 KAIST 공동연구소, AI 원팀을 통한 음성언어, 비전, 추론 등 AI 핵심 알고리즘 연구 강화

 

- AI Robot, AICC 등 AI로 실질적 매출 달성이 가능한 사업을 추진

 

ㅇ 한국형 AI GPU Full Stack 기술 확보 및 AI 반도체 경쟁력 강화

 

- Hyperscale AI Computing 출시('21.12월)를 통한 기술력 국산화 선도

 

- 다양한 브랜드의 NPU를 지원하는 SW 기술 국산화로 특정 GPU 벤더에 대한 종속성을 탈피하고 효율적인 GPU 인프라 구축

 

- 전문 스타트업들과의 협력을 통해 AI 반도체 자체 개발 병행

 

ㅇ AI 전문인력 확보 및 산·학·연 협의체 활성화

 

- AIVLE School(KT의 청년희망ON 프로그램)을 통한 AI 개발자 및 DX 컨설턴트 양성(3년간3,600명)

 

- Korea AI Startup 100, 오픈 이노베이션 등 AI 생태계 활성화

SKT (이상호 T3K 센터장)

ㅇ SKT는 ‘AI & Digital Infra 서비스 컴퍼니’로서 인공지능을 기반으로 기술과 서비스 혁신 추구

 

- 통신/보안/미디어/커머스 등에 AI를 접목하여 고객경험을 혁신하고 이를 위해 언어/음성/Vision 각 분야 AI 핵심기술 고도화

 

- SKT ‘AI 통합 패키지’ ITU-T 표준과제 승인 등 AI 표준화를 선도하고 AI 컨퍼런스(ai.x), AI커리큘럼, AI팰로우십 등 생태계 지원활동을 통해 국내 AI 산업/기술 경쟁력 강화에 기여

 

- NUGU 케어콜, 인공지능돌봄 등 AI 기술로 ESG 가치 창출

 

ㅇ AI반도체 ‘사피온’ 기술개발·확산을 지속하고 미국법인 설립을 통해 글로벌 시장진출의 교두보 확보

 

- 정부과제에 적극 참여하며 민관협력의 결과물이 글로벌 시장에서 성과를 거둘 수 있도록 추진

 

- AI 반도체 공공수요 창출을 위한 타부처·지자체 협력사업 확대 필요

LG AI 연구원 (배경훈 원장)

ㅇ LG AI는 단순한 기술을 넘어 고객의 삶을 더욱 가치 있게 하고자 함

 

- 이를 위해 LG그룹은 12개 계열사가 공동 투자(3년간 2천억원 이상)하여 AI전담조직 ‘LG AI연구원’을 출범시킴

 

ㅇ LG AI연구원은 사업적 임팩트가 크고 기술적 난이도가 높은 계열사 난제를 해결(AI for Company)하고 이를 바탕으로 고객 가치 실현(AI for Customer)을 위해 나아가고자 함

 

ㅇ 이러한 목적을 위해, 초거대 AI에 천억원 이상 투자 결정하고 ’21.12 국내 최대 규모 멀티모달 전문가 AI ‘EXAONE’ 발표

 

ㅇ 또한, AI 인재확보를 가속화하기 위하여 ‘22.상반기 LG AI대학원을 설립하여 AI 석/박사급 인력을 자체 육성하고, 해외 인재 확보 및 글로벌 AI 리더십 강화 차원에서 미국 분소 설립 예정

 

삼성전자 (다니엘 리 글로벌 AI센터장)

ㅇ 삼성전자는 AI 기술을 통해 다양한 제품간 끊김 없는 연결과 새로운 차원의 경험을 모든 사용자들에게 제공하고자 노력중

 

ㅇ 사용자를 이해하고 그들이 필요로 하는 것을 미리 예측할 수 있는 AI 기술은 당사 제품과 서비스에 가치를 더하는 중요한 열쇠

 

ㅇ 삼성은 집, 사무실, 여행지 등 어떤 환경에서도 잘 작동하는 AI 기술 및 시스템 개발을 위해 끊임없이 노력하고 있고, 이 일환으로 세계 최고 수준의 연구 네트워크 구축에 대규모 투자중

 

ㅇ 특히, 당사 전제품에 AI 기술을 탑재하여 일부 사용자에 국한된 편의성이 아닌 모든 사용자가 동일하게 누릴 수 있는 가치를 만들어 나가고자 함

 

ㅇ 삼성은 이러한 비전 실현을 위해 전세계 연구개발 인력들과 끊임없이 교류하여 새로운 AI 모델 및 선행기술 개발을 주도해 나갈 것임

네이버 (정석근 클로바 CIC 대표)

ㅇ 글로벌 기술 기업들의 AI 투자 가속화라는 세계적인 흐름에 맞춰, 국내에서도 네이버를 시작으로 초거대 AI 생태계가 확산되고 있으며, 국가 경쟁력 차원에서 정부의 적극적인 지원 필요

 

ㅇ 네이버는 ‘20년 슈퍼컴퓨터 도입, ’21년 하이퍼클로바 공개 후, 올해도 초거대 AI 연구를 위한 대규모 GPU 및 HW 인프라 투자와 지속가능한 AI 및 난제 해결을 위한 연구를 이어갈 계획

 

ㅇ 서울대·카이스트 등 국내 산학연구 협력 증진 및 글로벌 Top tier 연구 그룹과의 협업을 통한 AI R&D 생태계 확대

 

ㅇ ‘모두를 위한 AI’라는 방향성 아래 누구나 쉽게 초대규모 AI를 활용할 수 있도록 CLOVA Studio 및 HyperClova API 공개

 

카카오엔터프라이즈 (최동진 부사장)

ㅇ AI클라우드 멤버십을 구성하여 AI연구 생태계 조성 예정. 산학연 등 GPU자원이 필요한 기관이 멤버십에 참여하여 인프라 공동 사용, 카카오엔터프라이즈의 AI 기술력 활용 등 규모의 경제를 통한 AI기술성장 촉진

 

※ 연내 멤버십 구성 및 서비스 확대 통한 선순환 사이클 구축을 목표로 AI인프라 구축 및 운영 역량 고도화 중

 

ㅇ AI연구인턴십, 포닥, 해외학회 지원, 리서치 멤버십 프로그램 등 자체 인재양성 프로그램 운영중이며, 서울대 AI대학원 등 대학과 산학협력을 통한 인재양성에 투자 중. 정규직 전환 인력 발생 등 가시적 효과 창출 중

 

ㅇ AI를 포함한 산업생태계 조성 목적으로 Boost-up program 운영을 통해 21년 20개사를 선정하여 클라우드, AI API, 기술멘토링, 사업 제휴 등 지원

 

ㅇ 초거대 인공지능 KoGPT, 연내 192B 모델(파라미터 기준) 개발 계획

퓨리오사 (백준호 대표)

ㅇ GPT-3 포함 초거대 모델 API 서비스에 최적화된 고성능 AI 칩 Renegade 개발 진행 중. Renegade는 GPU 대비 5배 이상의 가격 대비 성능 (Perf / TCO) 달성을 목표로 함

 

ㅇ 새롭게 생겨나는 국내 팹리스 회사는 반도체 인프라와 인력의 역량/성숙도 측면에서 글로벌 경쟁력을 갖춘 제품을 보여줄 저력을 갖추고 있음

 

ㅇ 초거대 모델 서비스 제공회사들이 충분한 서비스 경쟁력을 갖추도록 칩 개발 단계에서부터 초거대 모델 서비스 제공까지 긴밀한 상호 협력이 필요하며 이런 협력 체계를 적극적으로 구축하기를 희망함

 

 

리벨리온 (박성현 대표)

ㅇ 리벨리온 창업 후 1년이 지난 후 TSMC 7나노 공정의 첫 번째 AI칩이 나왔고, 현재 월스트리트 투자은행 및 헤지펀드들과 협업 중에 있음

 

ㅇ 두 번째 칩은 삼성 5나노로 2022년에 제작될 예정으로 클라우드 서버향 초거대 모델의 추론을 주목적으로 함

 

- 현재 예상되는 벤치마크 결과는 세계 최고 수준의 TFLOPS/W로서, 성능 뿐만 아니라 운용비용까지 절감할 수 있음

 

보도일시 :

2022. 1. 19.(수) 석간, 온라인 10:00부터

 

 

 

 

디지털 뉴딜의 성공을 위한 대표 프로젝트,

 

인공지능(AI) 학습용 데이터

구축·활용 고도화 방안

 

 

 

 

 

 

 

2022. 1. 19.

 

 

 

 

 

 

 

 

관계부처 합동

 

 

 

인공지능 학습용 데이터 구축·활용 고도화 방안(요약)

 

인공지능 학습용 데이터 구축 추진배경

 

□ 정부는 ‘인공지능 국가전략’(’19.12), ‘디지털 뉴딜’(’20.7)을 통한 디지털 전환 가속에 대비하며 대표 프로젝트로 ‘데이터 댐’ 구축 본격화(’20.9~)

 

ㅇ 전 산업·사회적인 인공지능 도입·확산의 핵심자원이 될 인공지능 학습용 데이터 구축·개방에 ’25년까지 2.5조원의 대규모 투자 계획

 

※ ’17~‘19년 21종 → ’25년까지 총 1,300여종 구축·개방 추진

 

< (참고) 인공지능 학습용 데이터 구축의 필요성 >

◇ 인공지능 모델의 데이터 학습량은 성능과 비례하며, 각 분야로 인공지능 기술이 확산·발전되기 위해서는 분야별 고품질·대규모 인공지능 학습용 데이터 확보가 필수

 

◇ 단, 데이터 수집·가공에 시간·비용 소요*가 커서 중소·스타트업, 대학 등의 인공지능 도입·확산에 장벽이 되므로, 국내 실정에 맞는 데이터의 양적·질적 확충 요구 증대

 

* 국내 AI·데이터 기업은 AI 개발 시간의 80%, 비용의 75%가 데이터 확보에 소요된다고 응답(‘20, NIA)

 

➡ 지속 제기되는 데이터 부족 문제 해소와 디지털 전환 가속화를 위한 체계적인 데이터 자원 확보·활용을 뒷받침할 전략방안 마련 필요

 

데이터 구축·개방 현황 및 주요성과

 

□ (현황) 기존 21종(‘17~’19)에 더하여 ’20년 구축한 170종 4.8억건*의 데이터를 ’21.6월 개방하였고, ’21년 190종 추가 구축(잠정 ’22.上 개방)

 

* 다양한 수요분석과 전문가 검토를 통해 음성·자연어, 비전, 헬스케어 등 8개 분야 선정·구축

 

□ (주요성과) 데이터 추가개방 후 약 6개월간 6만여 건의 다운로드와 함께, 이를 활용한 다양한 인공지능 혁신서비스 창출

 

< AI Hub 데이터를 활용한 혁신서비스 창출 사례 예시 >

라이드플럭스 · 자율주행 데이터 기반 무인이동 서비스 도입·고도화 및 지역 확대

 

※ 제주관광지 자율주행 셔틀(‘21.8), 세종정부청사 승객이동 서비스(’21.9) 운영

아워랩 · 수면 질 분석 데이터를 활용한 수면자세 감응형 수면무호흡 치료기기 개발

 

※ 식품의약품안전처 의료기기 품목허가 취득(‘21.2)

씨유박스 · 개인동의 기반 안면이미지 데이터를 활용한 위변조 감지 알고리즘 개발

 

※ 국내 기업 최초 관련 기술 국제표준(ISO/IEC 30107-3) 인증 획득(‘21.7)

 

ㅇ ’20년 추경 등을 통한 데이터 구축 과정에 기업·대학·병원 등 571개 기관과 청년·경력단절여성 등 4만여명 이상의 인력 참여

 

※ 데이터 품질 강화를 위해 데이터 구축 전과정에 활용할 수 있는 품질기준도 마련·적용(’20.10~)

고도화 방안 추진방향 및 비전

 

□ (추진방향) 충분한 과제수요*와 구축·활용 주체들의 개선·보완 의견을 토대로, 1,300종 데이터의 전략적 구축방향 설정과 활용 활성화 유도

 

* 디지털 뉴딜 추진 후 산·학·연 각 계 수요조사를 통해 3천3백종 이상의 데이터 수요 확보

 

□ (비전·목표 및 과제)

 

비전

 

목표

 

과제

 

추진과제

 

1 데이터 구축·개방 로드맵 수립·이행

 

󰊱 체계적 데이터 확보를 위한 방향과 전략을 제시합니다

 

“기반기술 + 2대 전략분야를 축으로 종적·횡적 확장”

 

① (기반기술) 한국어, 영상·이미지 등으로 여러 기술·산업의 공통 기술로 활용되는 범용적 성격의 인공지능* 구현을 지원하는 분야

 

* 시각·청각·인식·동작 등을 비롯하여 다양한 분야에서 활용될 수 있는 공통 기술

 

② (전략분야1) 헬스케어·교통·안전 등 공익 증진에 기여할 수 있고, 조기에 인공지능 확산과 성과 창출을 기대할 수 있는 분야

 

③ (전략분야2) 인공지능을 통한 산업·영역별 혁신을 촉진할 수 있는 분야

 

※ 로드맵 수립을 위한 정책연구 추진 및 전문가, 데이터 활용기업, 개발자 등 의견 지속 수렴(’20.10~)

󰊲 시장이 원하고 국가가 필요로 하는 데이터, 이렇게 구축됩니다

 

구 분 목 표 구축 방향

단기(~‘23) 중기(~’25)

 

기반기술 한국어 다양한 분야·상황에 적용될 한국어 인공지능 개발 지원 단일한 환경, 특정 조건하의 음성·대화·질의응답·번역 등 기초데이터 확보 저음질·다화자 음성, 다양한 목적·상황별 복합 정보로 고도화 

 

영상· 포괄적 영상·이미지 확보로 관련 기술 연구 선도 객체·공간 인식을 위한 다양한 형태·행동·환경 데이터 확보 대규모 복합 상황 및 공간 인식을 위한

이미지 복합 정보로 고도화

 

전략 분야1 헬스케어 인공지능 기반 질병진단·치료 기기·서비스 개발 지원 질병판독·진단 지원, 수면·건강관리 및 임산부 등 기초데이터 확보 질병 재발·악화 등 예측, 의료환경(병원안전) 및 소외계층 데이터 등 확장

 

교통·물류 작동이 불필요한 수준의 자율주행, 스마트 물류 실현 다양한 도로환경 객체, 교통상황, 차량 내외부 및 기초 물류데이터 확보 각종 이상상황, 도로 외 공간 객체·상황과 물류과정 전주기 데이터로 확대

 

재난·안전·환경 인공지능 기반 재난·재해예측, 선제적 대응체계 마련 개별재난, 고위험 분야 인지 및 환경(피복·산림 등) 기초데이터 확보 복합재난, 각종 생활 안전사고 예측·인지 및 기후변화 데이터 등 고도화

 

농·축·수산 자율형 스마트 농·축·수산 국내 주요 작물 및 축종·어종별 생육·행동 기초데이터 확보 생산, 질병관리 및 유통·소비 등 전주기 데이터로 확대

서비스 개발과 확산

 

전략분야2 제 조 공정 최적화, 지능형 제조솔루션 개발을 위한 공정·품질 정보 등

로보틱스 용도·산업별 로봇 기술 개발·고도화를 위한 인지·모션 데이터 등

법 률 법률 지식·접근성 증진, 서비스 지능화를 위한 법령·용어·판례 등

교 육 맞춤형·지능형 교육을 위한 분야별 교재, 학습분석 정보 등

금 융 정보 비대칭 해소, 서비스 개발·고도화를 위한 투자분석정보, 용어 등

지식재산 특허상담, 유망기술 예측을 위한 특허·기술·분쟁·거래 정보 등

문화·관광 지능형 문화·관광 서비스를 위한 이미지, 지식DB 등

스포츠 경기력 향상, 전술 고도화 등을 지원할 영상·이미지, 각종 규칙정보 등

➡ 상기 예시분야 외 인공지능 도입·확산을 위해 전략분야 지속 발굴·확장

☞ 매년 변화하는 정책환경을 반영하여 세부 추진계획 보완 및 차년도 구축과제 기획·선정 추진

 

󰊳 로드맵 이행 체계를 갖추어 나갑니다

 

ㅇ 주요 영역별 전문성을 보유한 부처·전문기관이 기획위원회 참여를 통해 과제기획, 추진방향 설정 등 구축·활용 전반을 주도

 

➊ 사례1 해당 분야 전문성을 갖춘 농식품부가 기획-구축-활용을 주관하는 방식 도입·적용(‘22) 후 수요에 따라 분야 확산

: 농축산

➋ 사례2 과기정통부-문체부(국립국어원) 간 상호 전략적인 데이터 기획-구축을 위한 협력체계 운영, 데이터 연계 등 추진

: 한국어

2 구축 데이터의 활용성과 가치 증진 지원

 

󰊱 쉽게 접근하고, 편리하게 활용할 수 있도록 합니다

 

ㅇ (클라우드 토탈서비스) 활용빈도가 높은 일부 데이터를 다운로드 없이 클라우드 상에서 가공, 컴퓨팅자원 이용 등이 가능토록 지원(’22~)

 

※ 장기적으로 AI Hub(스토리지)를 광주 데이터센터로 이관, 컴퓨팅자원 등 원스톱 제공(‘23~)

 

ㅇ (데이터 접근성 개선) 이용자 편의 증진을 위한 개선방안 시범운영

 

데이터 대용량의 데이터를 필요한 만큼만 내려 받아 활용할 수 있도록 소규모·중규모(1~20%) 버전 데이터 제공 병행(‘22~)

분할제공

 

객체 이용자가 원하는 객체만 선택하여 다운로드 할 수 있도록 데이터에 포함된 개별 객체를 검색하여 부분 다운로드 제공(‘22~)

선택제공

 

데이터 네트워크 환경이 열악한 이용자도 대규모 데이터를 자유롭게 활용할 수 있도록 저장매체 기반 ‘주문-대여 서비스’ 제공(‘22~, 자율주행 분야 시범)

딜리버리

 

ㅇ (데이터 활용·환류) 구축된 데이터를 서비스 개발에 활용하면서 파생된 데이터를 AI Hub에 축적·개방하는 시범서비스 운영(’22~)

 

ㅇ (AI Hub 연계·확장) AI Hub 데이터가 자유롭게 수정·재가공되어 확산되도록 기업 플랫폼 게시 허용 및 결과물 AI Hub 공유 추진(’22~)

 

 

 

ㅇ (AI Hub 기능 고도화) 핵심데이터 중심으로 상시 경진대회(리더보드)를 운영하고, 교육·실습자료 탑재 및 커뮤니티 기능 강화(’22~)

 

ㅇ (개인정보보호 강화) 주기적 데이터 검증과 함께 ‘개인정보 신고제’를 도입하고(’22~), 유형별 가명·익명처리 가이드라인을 마련·적용(’22~)

 

※ ‘개인정보 보호·활용 기술 R&D 로드맵’에 따라, 데이터 유형별 개인정보 탐지 등 기술개발 및 활용 지원(‘22~)

󰊲 다양한 정부 지원사업과 연계하여 활용 가치를 높여갑니다

 

ㅇ (D.N.A. 지원사업간 연계) 디지털 뉴딜 등을 통해 추진 중인 다양한 데이터-클라우드-AI 지원사업을 연계한 패키지형 지원 추진(’22~)

 

< 연계 지원 체계도(안) > * (예시) A기업, B기업

 

 

ㅇ (정부 지능정보화사업 연계) 과기정통부 내 지능정보화사업 등과 우선 연계하고, 향후 타 부처 지능정보화사업과 연계 확대 추진(’22~)

 

ㅇ (타 사업⟵데이터 제공) 인공지능 R&D, AI+X 등 인공지능 융합사업 추진 시 AI Hub 데이터 활용 확대 지원 및 일부 의무화 검토(’22)

 

󰊳 믿고 쓸 수 있는 양질의 데이터로 만들어 갑니다

 

ㅇ (선제적 품질관리) 데이터 구축 중간단계부터 인공지능 모델학습을 병행하고, 오류 점검·보완 등을 위한 사전검증 및 자문 실시(’22~)

 

ㅇ (기존 데이터 고도화) 추가·보완이 필요한 데이터를 발굴·고도화하는 ‘기 구축 데이터 고도화’ 과제 유형 신설 추진(’22)

 

ㅇ (맞춤형 데이터 구축) 데이터 성격과 구축 난이도 등을 고려해 지원규모, 구축기간을 다양화하고 별도 운영·평가체계 마련·적용(’22~)

 

ㅇ (데이터 신뢰성 확보) 데이터 수집-가공-개방 각 과정의 적법성, 투명성 점검 및 데이터 이력 관리 방안 등 도입 추진(’22~)

 

󰊴 데이터 구축에 함께한 분들의 성장을 지원합니다

 

ㅇ (단계별 교육 활성화) 일반라벨러-전문라벨러-관리자 등 수준별 맞춤형 교육을 1만여명에 제공(~‘21.12)하고, 전문가·관리자 과정 점진 확대

 

ㅇ (타 교육과정 연계) 데이터 구축·활용 저변을 확대하고, 데이터 구축 경험을 관련 분야 경력으로 발전시키도록 학교·직업교육 등 연계(’22~)

 

ㅇ (크라우드소싱 적용 분야 확대) 단순 데이터 수집, 가공 작업에서 데이터 검수·품질관리 등 전문성이 필요한 분야로 확대 추진(’23~)

 

순 서

 

 

Ⅰ. 고도화 추진배경

 

◇ 디지털 전환 가속화에 선제적 대비 → 데이터 댐 구축 착수

 

□ 정부는 ‘인공지능 국가전략’(’19.12), ‘디지털 뉴딜’(’20.7)을 추진하며 디지털 경제로의 전환 가속을 위한 정책 노력 본격화

 

※ ‘국가 AI R&D 전략계획(美, ‘19)’, ‘디지털전략 정책안(EU, ’20), ‘국가 인공지능 전략(英, ’21) 등 주요국도 인공지능·데이터 기반 디지털 경쟁력 증진을 위한 국가적 대응 강화 중

 

□ 특히, 디지털 뉴딜 대표 프로젝트로 ‘데이터 댐’ 구축에 착수(’20.9)하여, 디지털 전환의 핵심자원인 데이터 확보에 정책역량 집중

 

◇ 인공지능 학습용 데이터 구축을 중점 과제로 투자 대폭 확대

 

□ 데이터 댐 주요사업으로 인공지능 개발·고도화에 필수적인 인공지능 학습용 데이터 구축에 ’25년까지 약 2.5조원의 대규모 투자 추진

 

□ 이를 통해, 각 분야의 인공지능 도입 확산과 기술 발전을 선도할 데이터 수요를 발굴하고 면밀한 검토를 거쳐, 대규모 추가 구축·개방*

 

* 기 구축된(‘17~’19) 21종에 더하여 ’20년 구축한 170종의 데이터 추가 개방(‘21.6)

 

◇ 투자 효과 극대화를 위한 고도화된 데이터 확보 전략 추진 필요

 

□ 데이터 댐 착수 1년을 맞이하여, 정책 효과 극대화를 위해 그간의 경험을 토대로 체계적인 인공지능 학습용 데이터 확보방안 마련 필요

 

□ 아울러, 구축한 데이터의 활용 편의와 가치를 더하는 한편, 데이터 구축 참여인력의 전문성 증진을 위한 지원 강화도 요구되는 시점

 

➡ 그간의 경험을 토대로, 앞으로의 기술·산업 발전상과 연계하여 데이터 구축·개방, 활용 전반에 대한 전략적 방향 제시가 긴요

Ⅱ. 인공지능 학습용 데이터 구축의 필요성

 

◇ 인공지능은 데이터를 포함한 3가지 핵심 요소를 통해 구현

 

□ 인공지능은 인간의 지능을 컴퓨터로 구현하는 기술로 ➀상황 인지, ➁이성·논리적 판단과 행동, ➂감성·창의적 기능을 수행하는 능력

 

※ 시청각·인식·동작 등을 구현하는 기본지능을 기반으로 챗봇상담·질병진단·재난예측 등 다양한 분야의 응용지능을 개발하고, 창작·개발 등이 가능한 창의지능으로 고도화

 

□ 인공지능은 명령어 집합인 모델(알고리즘), 모델이 성능확보·강화를 위해 학습하는 데이터, 대용량 연산에 필수적인 컴퓨팅자원을 통해 구현

 

인공지능 기술 구현의 3요소 인공지능 서비스(예시)

모델 인공지능 고성능 의료진단(닥터앤서, 왓슨 등)

(알고리즘) 학습용 데이터 컴퓨팅자원 개인비서(빅스비, 시리, 알렉사 등)

자율주행(FSD, 울트라크루즈 등)

·AI·SW R&D ·수집·정제·가공 ·GPU·클라우드 

 

인공지능 윤리, 관련 법·제도

 

◇ 인공지능 학습용 데이터는 분야별 인공지능 확산·발전의 토대

 

□ 인공지능 학습용 데이터는 모델이 정확하게 인식·학습 가능한 텍스트·영상·이미지·음성 등의 원천데이터와 가공(라벨링)된 데이터를 총칭

 

< 인공지능 학습을 위한 데이터 가공 예시 >

음성·텍스트(한국인 대화음성) 이미지(질환 이미지) 영상(CCTV 이상행동분석)

 

음성파일을 텍스트로 변환하여 성별, 발화주제 등 속성값 부여 병변 진단·판독, 환부 영역표시·주석 등 정보 기입 영상 속 객체 구분과 이상행동 여부 파악, 동작 등 설명·표기

 

□ 대량의 데이터 학습은 모델 성능향상으로 직결*되나 확보·가공에 많은 시간·비용 소요** → 다양한 양질의 데이터 확보가 중요한 선결과제

 

* (예) 학습용 데이터 이미지가 많을수록 객체분류 인공지능의 정확도 향상(`20, 구글)

: 1.26백만개 이미지(94%) → 1.4백만개 이미지(94.5%) → 3백만개 이미지(97%)

 

** 국내 AI·데이터 기업은 AI 개발시간의 80%, 비용의 75%가 데이터 확보에 소요된다고 응답(‘20, NIA)

◇ 미국 등 선도국은 기업·플랫폼 중심으로 데이터 구축·활용 활성화

 

□ 구글·AWS·MS 등 빅테크 기업을 중심으로 인공지능 학습용 데이터 구축·활용이 활성화되고 있으며, 데이터 가공 시장 등 성장을 견인

 

ㅇ 데이터셋 가공 플랫폼을 제공하는 기업들이 활발히 성장 중으로, 일부 인공지능 기업은 해당 기업 인수·합병을 통해 산업 성장에 대비

 

※ (Scale AI Inc.(美)) 로봇·자율차·드론용 이미지에 주석을 다는 SW 개발, 1,800만불 펀딩 유치

(Appen(濠)) 크라우드소싱으로 학습용 데이터 생산·제공, 美 AI데이터 기업 인수에 3,500억원 투자

 

□ Kaggle, 이미지넷 등 민간의 인공지능 개발자 경진대회 플랫폼 등을 통한 데이터 축적·공유·개방 등도 활성화

 

 

 

 

◇ 우리도 관련 기업·시장이 태동 중이나 데이터 부족 문제 지속 제기

 

□ 우리도 인공지능 학습용 데이터 확보를 위한 정부 투자 확대 등으로 데이터 구축·가공 관련 기업, 시장 등이 탄생·성장 중

 

ㅇ 이를 통해 국내 인공지능 서비스 개발에 적합한 다양한 데이터 자원이 점차 확충되고, 기업의 데이터 구축 수요도 발생

 

□ 다만, 아직 많은 기업들이 인공지능 도입·운영에 대한 가장 큰 어려움으로 데이터 부족 문제를 지적*하고 있어, 지속 개선 필요

 

* 인공지능 도입·운용 시 어려운 점(‘20, KDI) : 데이터 부족(36.1%)>예산·인력 부족(30.6%) 등

 

➡ ❶국내 실정에 맞는 인공지능 학습용 데이터의 조속한 양적·질적 확충,

 

❷데이터 확보·가공 역량이 부족한 인공지능 관련 중소·스타트업, 학계, 개발자 등을 위한 정부 주도의 데이터 구축·개방 확대 요구 지속

 

참고  국내외 인공지능 시장 전망

 

□ 글로벌 인공지능 시장 전망

 

ㅇ 인공지능 시장은 기술 발전, 서비스 상용화·고도화에 따라 성장을 가속화하여, ’25년까지 208~374조원 규모로 성장할 것으로 전망

 

 

 

ㅇ 인공지능 SW가 전체 시장의 88%에 달하며(’21, 한국IDC), 인공지능 플랫폼 시장이 연평균 45% 이상의 고도성장 예측(’21, Tractica)

 

□ 국내 인공지능 시장 전망

 

ㅇ 국내 인공지능 시장은 ’19년 약 1.5조원→’25년 10.5조원 규모로 빠르게 성장(연평균 38.4%)할 것으로 예상(’20, 한국신용정보원)

 

 

 

ㅇ 머신러닝·컴퓨터비전·자연어처리 등의 기술이 성장을 주도*하고, ’22년 이후 HW보다 서비스·SW 시장이 더 커질 것으로 예측**

 

* ’25년 머신러닝(4.24조원)>컴퓨터비전(2.64조원)>자연어처리(2.49조원) 순(’20, 한국신용정보원)

** ‘18~’22년(5년간) 국내 인공지능 서비스·SW시장 연평균 30%이상 성장 전망(‘20, 한국IDC)

Ⅲ. 현황 및 추진방향

 

◇ [현황] 디지털 뉴딜 : 인공지능·데이터 생태계 활성화 기폭제 마련

 

□ 디지털 전환 가속화에 대비하고 코로나19로 인한 경제위기를 극복하고자 ‘데이터 댐’ 구축*을 중심으로 디지털 뉴딜 본격 추진(’20.7~)

 

* (데이터 댐 7대 사업) ➊인공지능 학습용 데이터 구축, ➋빅데이터 플랫폼·센터 구축, ➌데이터 바우처 제공, ➍인공지능 바우처 제공, ➎인공지능 융합 프로젝트(AI+X), ➏클라우드 플래그십 프로젝트, ➐클라우드 이용 바우처 제공

 

ㅇ 각 분야의 인공지능 도입·활용을 조기에 확산할 수 있도록 ’25년까지 1,300종에 달하는 인공지능 학습용 데이터 구축·개방 추진

 

연 도 2020 2021 2022 2025

 

종수(누적) 191 381 691 1,300

 

□ 디지털 뉴딜 1년여간 대량의 인공지능 학습용 데이터 구축·개방, 활용 확산, 품질관리체계 마련·적용 등 소기의 성과 달성

 

❶ (대규모 데이터 추가개방) 수요분석, 전문가 검토를 거쳐 구축한 음성·자연어, 비전, 헬스케어 둥 8개 분야 170종 4.8억건 개방(’21.6)

 

※ ‘20년 데이터 구축 과정에 기업·대학·병원 등 571개 기관과 청년, 경력단절여성, 장애인 등 4만여 명의 인력이 참여

 

❷ (활용과 서비스 창출 확대) 총 11만여 건의 다운로드 중 170종 추가개방(’21.6) 후 6개월간 5.8만건에 달하며, 다양한 혁신서비스 창출에 기여

 

라이드플럭스 · 자율주행 데이터 기반 무인이동 서비스 도입·고도화 및 지역 확대

 

※ 제주관광지 자율주행 셔틀(‘21.8), 세종정부청사 승객이동 서비스(’21.9) 운영

아워랩 · 수면 질 분석 데이터를 활용한 수면자세 감응형 수면무호흡 치료기기 개발

 

※ 식품의약품안전처 의료기기 품목허가 취득(‘21.2)

씨유박스 · 개인동의 기반 안면이미지 데이터를 활용한 위변조 감지 알고리즘 개발

 

※ 국내 기업 최초 관련 기술 국제표준(ISO/IEC 30107-3) 인증 획득(‘21.7)

 

❸ (데이터 품질관리체계 정비) 데이터 품질 강화를 위해 데이터 구축 전 과정에 참조·활용할 수 있는 각종 품질기준* 마련·적용(’20.10~)

 

* 품질공통기준(수집·가공·검수 등에 필요한 요구사항), 참조기준(데이터 속성 정보, 라벨링 방법 등)

 

참고  인공지능 학습용 데이터 구축사업 개요

 

□ 사업개요

 

ㅇ (개요) ‘디지털 뉴딜’ 핵심프로젝트인 ‘데이터 댐’의 대표사업으로 인공지능 서비스 개발에 필수적인 학습용 데이터를 대규모로 구축·개방하는 사업

 

ㅇ (목적) 양질의 인공지능 학습용 데이터를 대규모로 구축하여 중소·스타트업 등 민간의 인공지능 기술개발 촉진 및 관련 산업을 육성하고,

 

- 일자리 창출 등 민간 참여 기반의 인공지능·데이터 선순환 생태계 조성

 

ㅇ (사업내용) 인공지능 학습용 데이터를 구축‧개방하고자 하는 기업, 대학, 출연연, 공공기관, 협회, 지자체 등 민간‧공공 법인 등을 지원

 

※ (디지털뉴딜 목표 사업기간) ~`25년 / (디지털뉴딜 목표 사업비) 약 2조 5천억원

 

□ 추진경과

 

ㅇ (구축·개방) ’20년 170종 추가 구축을 완료(’21.2)하고 품질검증, 개발자·전문가 대상 사전공개를 통한 오류·유효성 검수 후 AI Hub(aihub.or.kr)에 개방(’21.6)

 

- ’19년까지 법률, 특허, 한국어 음성, 이상행동 CCTV 등 21종 4,650만건, ’20년 170종 4억 8,000만건의 데이터를 추가 구축·개방

 

< 인공지능 학습용 데이터 구축·개방 현황 >

 

 

ㅇ (품질관리) 품질 공통기준 마련·적용(‘20.9~), 8개 분야 80여명의 품질자문단 운영(’20.10~)

 

ㅇ (일자리 창출) 직접고용과 함께 국민 누구나 참여할 수 있는 크라우드소싱 방식 적용을 통해 총 40,165명(’20년 기준)의 일자리 창출

◇ [추진방향] 풍부한 수요를 바탕으로 분야별 전략적 데이터 확충 

 

1. 충분한 과제 수요확보와 종합적 검토가 가능한 체계로 운영 필요

 

평 가 매 사업 추진 시 개별 수요를 기반으로 과제 선정을 추진하여, 다양한 시기별 데이터 수요에 대한 포괄적 검토에 한계

 

추 진 ▪신규로 파악된 수요 외에 기존 미선정 과제도 재검토할 수 있도록 하여, 제기된 모든 수요를 ‘과제 수요 풀’로 활용

방 향

▪기존 구축 데이터의 확장·보완 수요 등도 종합적으로 고려한 연도별 구축과제 선정

 

☞ ‘20년 추경 이후 제기된 3,328건에 더하여, 데이터 수요 풀 지속 확대 : 신규수요+이전 사업 미선정 과제+기 구축 데이터 확장·보완수요 등

 

2. 디지털 뉴딜에 따른 1,300여종에 대한 전략적 구축방향 설정 필요

 

평 가 각 사업 기간별 분절적 추진으로, 全산업·사회적 디지털 전환을 촉진할 데이터 구축·활용에 대한 체계적 방향성 제시가 미흡

 

추 진 ▪디지털 뉴딜(~’25)로 추진되는 학습용 데이터 구축 사업 목표를 ‘민간 주도의 데이터 생태계 형성’ 지원으로 명확화

방 향

▪이를 위해, 매년 확장되는 수요기반 데이터 풀을 활용하여 1,300여종에 이르는 데이터를 각 분야에서 전략적·효율적으로 구축·활용할 수 있는 로드맵 제시

 

3. ’26년 이후의 데이터 생태계는 자생적 선순환 모델을 지향

 

□ 기 구축 또는 구축 중인 학습용 데이터의 활용성 증진과 함께, 데이터 댐이 지속 성장·고도화할 수 있는 선순환 모델 지향

 

ㅇ 디지털 뉴딜 후에도 전략적 확충이 필요한 데이터 확보, 수요자 편의와 데이터 활용성 증진을 위한 지원 대책은 지속 추진 필요

 

공공·민간 부문별 구축 데이터, 인공지능 서비스에서 파생되는 데이터가 데이터 댐으로 환류되는 체계로 운영

 

 

참고  인공지능 학습용 데이터 수요기반 과제 추진

 

□ 디지털 뉴딜 추진 후, 4차례의 수요조사를 통해 총 3,328건의 데이터 수요가 축적되었으며, 매년 과제기획위 검토를 거쳐 우선 추진과제를 선별

 

연도 조사 기간 수요 구축량 조사대상

’20년 추경사업 '20.4~6월 1,251 150 부처, 지자체, 공공기관, 연구기관, 데이터·AI 기업 등

’21년 본사업 '20.10~11월 891 150

추경사업 '21.3~4월 172 40

’22년 사업 '21.9~10월 1,014 310

3,328 650

 

ㅇ ’20년까지 구축된 191종의 수요기반 데이터를 구축·개방 중이며, ’21년 190종의 신규 데이터 추가 구축 및 ’22년 대비 추가 수요조사·검토 추진 중

 

< 인공지능 학습용 데이터 수요와 선정 과제 예시 >

 

: 선정 과제 / 

 

: 수요제기(미선정) 과제

한국어 영상·이미지 헬스케어 안 전

다화자 음성합성 데이터 일상생활 영상 데이터 심초음파·심전도 데이터 보행안전 도로 시설물 데이터

소음환경 음성인식 데이터 마스크 착용 안면 이미지 데이터 캡슐내시경 이미지 데이터 산림 수종 이미지 데이터

주제별 일상 대화 데이터 한국인 형상·치수 측정 데이터 의료분야 음성 데이터 기상 정보 데이터

한·영 번역 병렬 말뭉치 CCTV 유동인구 데이터 임신중 태아 초음파영상 데이터 해안 오염물질 데이터

미디어 콘텐츠 텍스트 데이터 모의면접 영상 데이터 식습관 등 관련 혈당 데이터 시설물 손상 영상 데이터

교통안내 다국어 말뭉치 지하철 부정 승하차 데이터 X-ray 이미지(관절질환) 자살시도자 이동 패턴 데이터

금융 용어 말뭉치 실내 가구 배치 데이터 환자 생체 신호 데이터 네트워크 공격 트래픽 데이터

 

농·축·수산 자율주행 제조·관광 등 주요 산업

정밀농업 노지작물 통합데이터 교통사고 영상 데이터 (제조) 주요 산업군 공정별 부품 이미지

스마트 양식장 통합데이터 멀티센서 동선 추적 데이터 산업현장 고숙련자 현장작업지식 데이터 등

동의보감 약초 이미지 데이터 탑승자 상황 인식 영상 데이터 (관광) 문화재 현판·비문 등의 한자 데이터

한우 신체충실지수 등급 데이터 지자체 도로 정비 데이터 관광 관련 챗봇 시나리오 데이터 등

(교육) 손글씨 수학문제 및 풀이 이미지 데이터

각종 자격증 기출문제 데이터 등

(문화) K-POP 안무 영상 데이터

과일 및 작물 이미지 데이터 도로별 통행량 시계열 데이터 한국인 얼굴 구성 요소별 데이터 등

양식장 공간 정보 데이터 온라인 정기배송 데이터

Ⅳ. 추진전략

 

 

1 데이터 구축·개방 로드맵 수립·이행

 

1 체계적 데이터 확보를 위한 방향과 전략을 제시합니다

 

□ 기반기술 + 2대 전략분야를 축으로 종적·횡적 확장

 

➀ (기반기술) 한국어, 영상·이미지 등으로 여러 기술·산업의 공통 기술로 활용되는 범용적 성격의 인공지능* 구현을 지원하는 분야

 

* 시각·청각·인식·동작 등을 비롯하여 다양한 분야에서 활용될 수 있는 공통 기술

 

➁ (전략분야1) 헬스케어·교통·안전 등 공익 증진에 기여할 수 있고, 조기에 인공지능 확산과 성과 창출을 기대할 수 있는 분야

 

➂ (전략분야2) 인공지능을 통한 산업·영역별 혁신을 촉진할 수 있는 분야

 

< 로드맵 수립 분야와 분야별 세부 영역 >

 

 

 

□ 로드맵 수립 시 핵심 고려사항 

 

① 각 분야별 인공지능·데이터 관련 주요 정책, 기술로드맵 상 계획에 따른 기술 수준과 발전 방향을 고려한 데이터 확보 전략으로 수립

 

② 전략분야·종별 시급성, 중요성, 파급효과와 인공지능 기술 트렌드를 함께 고려

 

③ ’25년까지 디지털 뉴딜에 따른 1,300여종의 데이터를 구축하고, 매년 변화하는 정책환경을 반영하여 차년도의 구체적 추진과제 기획·선정 추진

< 고도화 방안 이행을 통한 데이터 댐 기반 선순환 생태계 활성화 >

 

 

 

참고  인공지능 학습용 데이터 구축 로드맵 수립 추진경과

 

󰊱 인공지능 학습용 데이터 구축 로드맵 핵심 분야 발굴 (’20.10~11월)

 

ㅇ 인공지능 관련 정책·시장 동향 분석*을 바탕으로 후보 분야를 선정(20개)하고, 산·학·연 전문가(50여명) 대상 가치평가**를 통해 주요분야 도출

 

* 국내외 인공지능 전략, 관계부처별 AI 관련 기술개발·산업진흥 계획, 사업 등

** (평가기준) AI 활용 적합성, AI 학습데이터 구축 필요성, 정부투자 타당성 등

 

- 핵심기반(한국어, 영상·이미지), 전략분야(헬스케어, 교통·물류, 농·축·수산, 재난·안전·환경) 外 분야(제조, 교육, 문화 등)는 수요에 기반하여 과제를 지속 발굴할 방침

 

󰊲 핵심 분야별 구축 로드맵 초안 도출 및 과제 추진 (’20.12~’21.5월)

 

ㅇ 핵심 분야별로 산·학·연 전문가, 각 부처 추천위원이 참여하는 분과위원회를 구성·운영(총괄기획위, 분야별 분과위원회, 80여명)하여 분야별 로드맵 초안 도출

 

- 각 부처·지자체 및 전문기관, 인공지능 분야 협·단체, 활용기업 및 개발자 커뮤니티 등의 광범위한 수요조사(‘20.10~11월) 결과를 검토·반영

 

※ 협·단체(231명), 부처·전문기관(24개), 인공지능 개발자 커뮤니티(345명) 등으로부터 891개(민간 751개, 공공 140개) 신규과제 수요 제기

 

ㅇ 도출된 로드맵 초안에 대한 추가 의견수렴(온라인, ’21.12~1월) 및 총괄기획위원회를 거쳐 핵심분야와 세부 영역 등을 선정

 

- 로드맵 초안을 바탕으로 ‘21년 총 190종(본예산 150종, 추경 40종)의 우선추진 과제를 기획하여 데이터 구축 중(본예산 ’21.3월~, 추경 5월~)

 

󰊳 의견수렴 및 로드맵(안) 마련 (’21.6~11월)

 

ㅇ 로드맵 초안에 대해 관계부처 및 구축·활용 전문기업 의견 수렴, 산·학·연 전문가 검토를 거쳐 인공지능 학습용 데이터 구축 로드맵(안) 마련

 

ㅇ 수립된 분야별 로드맵(안)을 토대로 ’22년 310종(잠정)의 데이터 등에 대한 신규 구축 기획·추진

 

- 로드맵 세부추진방향은 정책환경 변화를 고려하여 지속 보완 예정

2 시장이 원하고 국가가 필요로 하는 데이터, 이렇게 구축됩니다

 

기반기술 한국어

 

“다양한 분야와 상황에 활용할 수 있는 한국어 인공지능 개발을 뒷받침합니다”

 

□ 데이터 개요와 필요성

 

ㅇ (개요) 한국어 음성·문자를 컴퓨터가 이해·처리·구사할 수 있도록 가공된 데이터로 음성인식, 요약·합성, 번역, 질의응답 시스템 등에 활용

 

※ (활용서비스 사례) 다양한 업종별 대화형 챗봇, 전문영역 등의 회의록 요약과 화자 구분, 방언·저음질 음성 등을 인식하는 AI 스피커, 주요언어-한국어 간 통·번역서비스 개발 등

 

ㅇ (필요성) 한국어 기반의 모든 인공지능 구현에 필요한 데이터로 상황·용도·개인별 편차가 크기 때문에 다양한 유형·수준별 대규모 데이터 축적이 요구되며, 각 국도 언어 데이터 확보에 역량 집중

 

※ 초거대 인공지능 기반의 서비스 개발 및 성능 향상을 위한 기능별 한국어 데이터 필요

 

□ 주요 세부과제별 목표

 

 

☞ ‘모두의 말뭉치’를 운영 중인 문화체육관광부(국립국어원)와 전략적 협력체계 구성·운영

 

□ 한국어 데이터 로드맵

 

 

☞ ‘21년까지 한국어대화·방언·논문·도서요약·콜센터질답·번역말뭉치·법률·특허 등 49종 구축·개방

기반기술 영상·이미지

 

“폭넓은 수준·종류별 영상·이미지 제공으로 인공지능의 시야를 한층 넓혀줍니다”

 

□ 데이터 개요와 필요성

 

ㅇ (개요) 컴퓨터가 사물·상황 등의 의미와 정보를 감지·인식·분석할 수 있도록 지원하는 다양한 종류·유형의 영상·이미지 데이터

 

※ (활용서비스 사례) 인공지능 로봇·기계 등의 동작 인식·구현, 불량품 판독, 3차원 공간 인지·구성 등

 

ㅇ (필요성) 자율주행, AI진단, 스마트공장, 보안시스템 등 각 산업·사회 분야의 시각 기반 인공지능 구현·고도화에 필수불가결한 자원

 

□ 주요 세부과제별 목표

 

 

 

□ 영상·이미지 데이터 로드맵

 

 

 

☞ ‘21년까지 한국인 감정·인식 복합영상, 장면·인물 인식 데이터 등 총 38종 구축·개방

전략분야 1-1 헬스케어

 

“인공지능이 한차원 높은 의료서비스와 건강관리를 실현할 수 있도록 도와줍니다”

 

□ 데이터 개요와 필요성

 

ㅇ (개요) 한국인이 취약한 질병 판독·진단과 일상 속의 건강 관리, 소아·노인 등 취약계층의 건강 유지 등을 뒷받침할 기반 데이터

 

※ (활용서비스 사례) 질병 판독·예측 정확성·속도 향상, 건강·수면 관리 보조, 가상환경 의료교육 등

 

ㅇ (필요성) 각종 인공지능 기반 의료기기 개발과 서비스 혁신을 통한 보건의료 분야 사회·경제적 비용 감소, 헬스케어 산업 활성화에 기여

 

□ 주요 과제분야별 목표

 

 

☞ 보건복지부 ’한국형 중환자 AI 데이터셋‘, ’암 특화 AI 데이터셋‘ 등과 중복 방지 및 협업·연계 강화

 

□ 헬스케어 데이터 로드맵

 

 

☞ ‘21년까지 각종 암·질환진단 데이터, 의료진·환자 음성, 인체자세·영상 등 총 35종 구축·개방

전략분야 1-2 교통·물류

 

“작동이 불필요한 수준의 자율주행, 스마트물류 구현을 위한 밑거름이 됩니다” 

 

□ 데이터 개요와 필요성

 

ㅇ (개요) 레벨4* 자율주행 구현에 필요한 각종 주행 인지·제어, 지능형 신호체계 기반 데이터와 물류 스마트화에 필요한 분야·과정별 데이터

 

* “고도 자동화” 단계로, 자율주행 작동 구간 내 운전자의 주시 및 작동이 불필요한 수준

 

※ (활용서비스 사례) 자율주행차량·시스템 구현, 실내 자율주행로봇 개발, 교통상황 인지·안내 등

 

ㅇ (필요성) 고도의 자율주행 체계의 조속한 구현을 지원하고, 물류 전 과정을 지능화하여 물류 전반의 비용·소요시간 최소화를 유도

 

□ 주요 과제분야별 목표

 

 

☞ 국토교통부 ’자율주행 데이터 공유센터‘, 차량·물류기업별 데이터와 전략적으로 연계 구축

 

□ 교통·물류 데이터 로드맵

 

 

☞ ‘21년까지 주행중인 객체, 차량위치측위, 차선·횡단보도 인지영상, 항만구조물 영상 등 총 23종 구축·개방

전략분야 1-3 재난·안전·환경

 

“신속·정확한 재난 예측과 선제적 대응이 가능한 시스템 구현을 지원합니다”

 

□ 데이터 개요와 필요성

 

ㅇ (개요) 홍수·태풍 등의 자연재난, 유해물질 유출 및 수질오염 등 사회재난, 안전사고 분석·예측 및 예방·대응·회복을 지원할 데이터

 

※ (활용서비스 사례) 재난·범죄 인식 등이 가능한 지능형 CCTV 개발, 시설물 균열 등 안전성 탐지, 산림·해양 오염과 확산 예측·인식 등

 

ㅇ (필요성) 각종 재난과 사고, 환경문제에 따른 피해를 최소화할 수 있는 지능적 예측·대응·체계를 마련하기 위한 기반 데이터 확보 시급

 

□ 주요 과제분야별 목표

 

 

 

□ 재난·안전·환경 데이터 로드맵

 

 

☞ ‘21년까지 상하수도·폐기물·수질오염·노후시설, 각종CCTV, 안면인식, 산림피복 등 총 31종 구축·개방

전략분야 1-4 농·축·수산

 

“생산-유통 효율 극대화, 종사자 편의 증진을 함께 실현할 수 있도록 해줍니다”

 

□ 데이터 개요와 필요성

 

ㅇ (개요) 생산성 향상, 비용·노동력 절감 등을 지원할 스마트농업 데이터, 사육 및 질병 진단·처방 정보 등 디지털 축·수산 실현을 지원할 데이터

 

※ (활용서비스 사례) 각종 작물 생육·질병 관리, 축사 운영 자동화와 최적 관리, 스마트 양식장 구현 등

 

ㅇ (필요성) 인공지능 기반 농·축·수산업 분야 모델 개발과 국내외 확산을 통해 주요 농·축·수산물 생산-유통 전반의 효율화를 유도

 

□ 주요 과제분야별 목표

 

 

☞ 농림축산식품부, 해양수산부 등 전문성을 갖춘 부처가 과제 기획, 운영 등 총괄 추진

 

□ 농·축·수산 데이터 로드맵

 

 

☞ ‘21년까지 농작물 품질·생육이미지, 농업지식베이스, 가축행동, 축산품질, 어류개체·행동 등 총 15종 구축·개방

 

참고  국내 분야별 데이터 구축 현황 분석

 

ㅇ (한국어) 대화형 서비스의 기반 데이터 위주로 구축, 시멘틱 검색 및 기업 기술경쟁력 확보의 원천이 되는 지식재산권 데이터 추가 확보 필요

 

ㅇ (영상·이미지) 동작 추정 및 인체와 관련된 데이터를 다수 구축·보유, 최근 필요성이 증가하고 있는 영상 요약 서비스 관련 데이터 보완 필요

 

ㅇ (헬스케어) 실제 국내 환자 분포를 고려한 주요 질병 위주 데이터가 구축되어 있으나, 심혈관질환 데이터 등 보완 필요

 

ㅇ (교통·물류) 민간에서 수집이 어려운 장애물, 특수도로 차선, 포트홀 등 다양한 객체가 포함된 주행 관련 데이터 위주로 구축, 무인이동체·항만·물류 등 추가 필요

 

ㅇ (재난·안전·환경) 이상행동CCTV, 공사현장, 화재 등 안전 관련 구축량이 상당 부분을 차지, 자연현상으로 인한 재난 관련 데이터 확보 필요

 

ㅇ (농·축·수산) 최근 3년간 농작물 생산량 현황 비율*과 유사하게 농산물 데이터 구축, 수산의 경우 어류 위주의 데이터로 패류 등 추가 구축 필요

 

* 2017~2019 노지 농작물 생산량 : 채소 > 미곡 > 과실 > 곡류기타 순 

※ 출처 : 통계청, 통계로 본 농업의 구조 변화(2020), 발췌 정리

 

 

<한국어> <영상·이미지>

 

<헬스케어> <교통·물류>

 

<재난·안전·환경> <농축수산>

전략분야 2 : 인공지능 기반 혁신 촉진

 

󰊱 (제 조) 다양한 인공지능 솔루션 기업, 제조기업 등이 공정 최적화, 지능형 제조솔루션 개발 등에 공통 활용 가능한 기반 데이터 구축

 

 

☞ 중소벤처기업부 ’AI제조데이터 플랫폼(KAMP)‘과 연계를 통한 전략적 협업 확대

 

< 제조 분야 데이터 로드맵(안) >

 

 

󰊲 (로보틱스) 국내 기업·연구기관 등의 로봇 분야 기술력 증진, 용도·산업별 로봇 개발과 기능 고도화를 지원할 수 있는 데이터 확보

 

 

 

< 로보틱스 분야 데이터 로드맵(안) >

 

 

󰊳 (법 률) 국민의 법률 분야 지식·정보 접근성 강화와 분야별 법률서비스 제공 방식의 지능화 등을 지원할 기반 데이터 축적

 

 

 

< 법률 분야 데이터 로드맵(안) >

 

☞ 단계별로 확대되는 판결서 공개데이터(법원행정처) 등과 연계하여 민간 수요 기반 구축 추진

 

󰊴 (교 육) 교육내용 전수(교사), 습득(학생) 및 교과 관리 등 교수·학습 全 단계 지능화와 맞춤형 서비스 개발 등을 위한 범용 데이터 구축

 

 

 

< 교육 분야 데이터 로드맵(안) >

 

☞ 교육부 ’K-에듀 통합 플랫폼 사업‘ 데이터 등과 전략적으로 연계 구축

 

󰊵 (금 융) 다양한 출처로부터 투자정보를 생산·제공하여 정보비대칭을 해소하거나, 서비스 개발·고도화를 지원할 수 있는 데이터 확보

 

 

 

< 금융 분야 데이터 로드맵(안) >

 

󰊶 (지식재산) 인공지능 기반 지식재산 데이터의 전략적 활용을 위한 국내·외 인용정보 및 가치평가 연계정보 등 데이터 축적

 

 

 

< 지식재산 분야 데이터 로드맵(안) >

 

☞ 특허청 및 소속·유관기관 등 전문성을 갖춘 부처·기관이 과제 기획, 운영 등 총괄 추진

 

󰊷 (문화·관광) 다양한 지능형 문화·관광 서비스 구현을 지원하는 이미지, 지식DB와 증강현실·메타버스 등 첨단 서비스 적용을 위한 데이터 확보

 

 

 

< 문화·관광 분야 데이터 로드맵(안) >

 

☞ 문화체육관광부 및 소속·유관기관 등 전문성을 갖춘 부처·기관이 과제 기획, 운영 등 총괄 추진

 

󰊸 (스포츠) 선수 경기력 향상, 팀 전술 능력 향상을 위한 과학적 분석, 스포츠 저변 확대를 위한 서비스 구현에 필요한 데이터 축적

 

 

 

< 스포츠 분야 데이터 로드맵(안) >

 

☞ 문화체육관광부 및 소속·유관기관 등 전문성을 갖춘 부처·기관이 과제 기획, 운영 등 총괄 추진

 

➡ 상기 예시 분야 외, 전략분야를 지속적으로 발굴·확장 추진

3 로드맵 이행 체계를 갖추어 나갑니다

 

□ 주요 영역별로 전문성을 보유한 부처 및 전문기관이 과제기획, 추진방향 설정 등 데이터 구축 전반에 전략적으로 참여·주도

 

ㅇ 향후 분야별 소관부처가 해당 분야 분과위 및 총괄기획위 참여 추진

 

< 인공지능 학습용 데이터 과제기획위원회 구성(안) >

▪(총괄기획위) 핵심 도메인 선정 및 구조화, 후보 데이터 선정, 지정 공모 대상 데이터 최종 검토 및 확정

 

▪(분과위원회) 분야별 부처·전문기관, 산·학·연 전문가로 구성하고, 분야별 수요조사 검토, 후보 데이터 발굴, 우선순위 선정 등 수행

 

➊ (사례1) 농·축산(‘22~) 해당 분야 전문성을 갖춘 농식품부가 기획-구축-활용을 주관하는 방식을 도입·적용 후 수요에 따라 분야 확산

 

※ ‘22년 협업예산 17대 과제 중 ’디지털 기반 스마트 농업(농식품부, 과기정통부)‘ 과제를 통해 추진

 

< 농·축산 분야 ‘과기정통부–농식품부’ 협력 방안(‘22~) >

▪ (기획) 스마트농업 확산 거점(혁신밸리, 노지 스마트농업 시범단지 등)과 연계하고, 농업인·기업, R&D 등 현장 수요를 반영한 특화 데이터 구축 과제 기획 협업

 

▪ (구축) 농·축산 분야 전문기관(농정원, 농진청 등)이 旣 보유한 원천데이터를 제공하고, 과제 수행기관 선정, 세부조정* 및 품질기준 마련·적용 등 참여·자문

 

* 데이터 구축 필요량, 수집 환경, 수집 기간 등을 농·축산 분야 전문기관과 협의·확정

 

→ (활용) 구축 및 품질검증이 완료된 데이터를 기반으로 인공지능 경진대회, 중소·스타트업 지원사업 연계, 스마트농업 확산 등 활용 활성화 방안 공동 기획·추진

 

➋ (사례2) 한국어(‘22~) 과기정통부-문체부(국립국어원) 간 상호 전략적 데이터 기획과 구축*을 위한 협력 체계 운영 및 데이터 연계 추진

 

* 음성·자연어 분과위 등에서 문체부(국어원)를 포함한 데이터 기획 및 연계 협력 활용 방안 논의

 

□ 추후 「데이터기본법」에 따라 신설되는 ‘국가데이터정책위원회’의 분과로 ‘인공지능 학습용 데이터 기획·활용’ 관련 분과 신설 검토

 

※ 분과 신설 시 과제기획위원회를 분과 내로 이관하여 범부처 협력의 제도적 근거 마련

2 구축 데이터의 활용성과 가치 증진 지원

 

1 쉽게 접근하고, 편리하게 활용할 수 있도록 합니다

 

□ (클라우드 토탈서비스) 데이터를 내려받지 않고도 클라우드 환경에서 가공, 컴퓨팅자원 이용 등이 가능한 종합 지원체계 구축·제공

 

ㅇ 활용 빈도가 높은 15종의 데이터에 대해 이용자 수요를 토대로 클라우드 기반 토탈서비스 시범 지원 및 점진적 확대 검토(’22~)

 

※ 장기적으로 AI Hub(스토리지)를 광주 데이터센터로 이관, 컴퓨팅자원 등 원스톱 제공(‘23~)

 

□ (데이터 접근성 개선) 데이터 분할·선택 제공, 딜리버리 등 이용자 편의 증진을 위한 데이터 접근성 개선방안 시범 운영

 

데이터 대용량의 데이터를 필요한 만큼만 내려 받아 활용할 수 있도록 소규모·중규모(1~20%) 버전 데이터 제공 병행(‘22~)

분할제공

※ 데이터를 내려 받기 전, 클라우드로 데이터 구성 등 확인 후 다운로드 규모 선택

 

객체선택제공 이용자가 원하는 객체만 선택하여 다운로드 할 수 있도록 데이터에 포함된 개별 객체를 검색하여 부분 다운로드 제공(‘22~)

 

※ 객체 기반 데이터 검색을 통해 상세 데이터, 키워드, 연관 검색, 필터 기능 제공

 

데이터 네트워크 환경이 열악한 이용자도 대규모 데이터를 자유롭게 활용할 수 있도록 저장매체 기반 ‘주문-대여 서비스*’ 제공(‘22~, 자율주행 분야 시범)

딜리버리

* 이용자가 활용하고자 하는 데이터(복수 가능)를 출력 포맷과 배송지를 선택하여 신청하면, 데이터셋을 생성한 후 저장장치에 복사하여 배송하는 방식

 

□ (데이터 활용·환류) 기 구축된 데이터를 서비스 개발에 활용하는 과정에서 수집된 데이터를 AI Hub에 축적·개방하는 선순환 체계 마련

 

ㅇ ‘데이터 활용·환류’ 과제*를 신설하여 ’22년 시범도입 후 확대 검토

 

* 기 구축된 AI Hub 데이터를 활용하여 인공지능 기반 제품·서비스를 개발·적용하고, 해당 서비스로 새로 생성·구축된 데이터를 다시 AI Hub에 공개

 

□ (AI Hub 연계·확장) AI Hub 데이터가 자유롭게 수정·재가공되어 다양한 채널로 재배포되도록 하여, 데이터의 지속적 발전 및 확산 유도

 

※ AI Hub 데이터 구축기업의 동의를 기반으로 민간 자체 채널을 통해 개방하거나, AI Hub 업로드 및 민간 채널에 링크를 게시

ㅇ 관련 공공·지자체 포털 및 민간 제공 데이터*와의 연계도 점진 확대하여 인공지능 학습용 데이터 검색·활용 편의 증진

 

* (LG CNS) KorQuAD, (카카오브레인) KorNLI, KorSTS, (네이버) 클로바 콜 등, (업스테이지·KAIST 등 10개 기업·기관) KLUE 등

 

< 인공지능 학습용 데이터 연계·확장 개념도(안) >

 

 

□ (AI Hub 기능 고도화) AI Hub를 이용자 간 상호 공유·경쟁과 데이터 기반 교육·실습이 이루어지는 종합 플랫폼으로 고도화

 

ㅇ 데이터 이용자의 모델 성능 순위를 기록하여 경쟁하는 리더보드를 핵심데이터*를 중심으로 상시 운영

 

* 관심도 및 지속적 성능 개선이 요구·전망되는 태스크와 그에 맞는 데이터 선정 필요

 

※ 이미지넷 챌린지(’10~‘17)를 통해 시각지능 성능이 지속 개선되어 객체인식 정확도 98.8% 달성

 

ㅇ 이용자 간 성과 및 모델정보를 공유할 수 있는 커뮤니티 기능을 추가하고, AI Hub 데이터 활용 교육 및 실습 자료를 탑재

 

□ (개인정보보호 강화) AI Hub 데이터를 안심하고 활용할 수 있도록 데이터 구축·활용 단계 전반의 개인정보보호 조치 추진

 

※ ‘개인정보 보호·활용 기술 R&D 로드맵’에 따라, 데이터 유형별 개인정보 탐지 등 기술개발 및 활용 지원(‘22~)

 

① (가명·익명 처리 강화) 데이터 구축 단계와 개방 전의 2단계에 걸쳐 가명·익명화 조치 적용·검증을 실시하고, 복수의 SW로 주기적 검증 추진(’21.12~)

 

② (개인정보 신고제 운영) AI Hub 데이터 내 개인·민감정보 발견 시 이를 신고할 수 있도록 하고, 확인된 사항은 즉시 조치 및 결과 피드백 제공(’22~)

 

③ (가이드라인 마련·적용) 데이터 구축 수행기관·관계자 누구나 쉽게 참조하고 활용할 수 있는 ‘데이터 유형별 개인정보 가명·익명 처리 가이드라인’ 마련·배포(’22)

2 다양한 정부 지원사업과 연계하여 활용 가치를 높여갑니다

 

□ (D.N.A. 지원사업간 연계) 디지털 뉴딜 등을 통해 추진 중인 다양한 데이터-클라우드-AI 지원사업을 연계하여 제공하는 방안 도입

 

ㅇ 국내 유망 인공지능 기업 등을 대상으로 복수의 정부 지원사업 참여 수요조사 후, 공모를 통해 선정·지원하는 패키지형* 지원 추진(’22~)

 

* ‘(가칭) Global AI Leaders’ 프로젝트

 

< 단계별 지원 체계도 > * (예시) A기업, B기업

 

 

ㅇ 데이터 바우처 지원사업과 연계하여 중소·스타트업의 AI Hub 데이터 재가공 비용을 지원*하고, 재가공된 데이터는 AI Hub에 추가 공개

 

* 기업별로 AI Hub 데이터를 개발하고자 하는 AI 솔루션 특성, 기존 데이터와의 정합성 등에 맞추어 새롭게 가공하여 활용하고자 하는 수요도 큰 상황

 

□ (지능정보화사업 연계) 데이터 구축·활용 등이 필요한 지능정보화사업*에 대해 AI Hub 데이터 중복성 점검 및 우선 활용 권고

 

* 「지능정보화기본법」에 따라 공공서비스의 지능정보화를 위해 국가가 추진하는 사업

 

※ AI Hub 데이터 활용도를 제고함과 동시에, 지능정보화사업 등에서는 과제 수행 상 필요한 인공지능 학습용 데이터 구축 시간·비용 절감 등 효율화 가능

 

ㅇ 지능정보화사업의 기획 단계에서 도출된 인공지능 학습용 데이터 수요를 AI Hub 데이터 구축사업 신규 과제기획에 반영 추진

 

□ (타 사업⟵데이터 제공) 인공지능 R&D, AI+X 등 인공지능 융합사업 추진 시 AI Hub 데이터 활용 확대 지원 및 일부 의무화 검토

 

ㅇ AI Hub에서 제공하는 데이터와 AI 모델을 활용한 R&D, 정책사업 과제를 발굴·확산*하고, 필요에 따라 활용을 의무화하는 과제 도입

 

* (현재) 인공지능 그랜드 챌린지, 온라인 경진대회 → (향후) AI+X, AI R&D 등도 적용

3 믿고 쓸 수 있는 양질의 데이터로 만들어 갑니다

 

□ (선제적 품질관리) 데이터 구축 초기단계부터 인공지능 모델학습을 병행하고, 오류 점검·보완 등을 위한 사전검증 및 자문 실시(’22~)

 

데이터 구축 – 모델학습 병행 사전검증 및 자문

▪일정량 이상의 데이터 구축 후 모델학습 병행을 통한 활용성·품질 확인 ▪데이터 구축 중 오류발생 등이 우려되는 경우 초기 데이터 사전검증 추진

 

▪데이터 규격·분포 등 설계오류, 라벨링 오류 등을 피드백·개선  ▪오류 수준이 기준초과 시 즉시 보완 후 품질검증 수행

 

□ (기 구축 데이터 고도화) 각종 변수와 환경을 고려하여 추가·보완이 필요한 데이터의 경우 신규 과제를 통해 고도화하여 활용성 증진

 

ㅇ 데이터 이용자의 피드백과 현황분석에 기반한 ‘기 구축 데이터 고도화’ 과제 유형 신설 추진(’22)

 

※ 추가·보완 필요 데이터 현황조사 및 시범 과제 선정·추진 후 대상 확대

 

□ (맞춤형 데이터 구축) 데이터의 성격과 구축 난이도 등을 고려한 지원규모, 구축기간 다양화를 통해 데이터 품질·가치 극대화

 

ㅇ 과제 특성에 따른 구축비용 지원 규모 차등화 방안* 도입 추진

 

* (현행) 1종당 약 20억원 이내 → (개선) 대·중·소형 과제로 세분화 및 차등 지원

 

ㅇ 연도별 과제 기획 시 다년도에 걸쳐 구축이 필요한 과제를 선정하여, 해당 과제군에 대한 별도의 운영·평가체계를 마련·적용(’22~)

 

□ (데이터 신뢰성 확보) 데이터 수집-가공-개방 각 과정의 적법성, 투명성 점검 및 데이터 이력* 관리 방안 등 도입 추진(’22~)

 

* 데이터 출처 및 수집·가공 방법, 적용가능 분야, 라이센스 정책 등

 

ㅇ AI Hub 데이터의 신뢰도가 이를 활용한 인공지능 솔루션에 대한 신뢰로 연결될 수 있도록 개발자에 데이터 출처 명시를 권고

 

※ AI 솔루션 수요기업·기관에서 해당 AI의 신뢰성 및 윤리성 등을 사전 점검하기 위해 개발에 활용된 데이터의 이력 등을 함께 요구하는 사례 존재

4 데이터 구축에 함께한 분들의 성장을 지원합니다

 

□ (단계별 교육 활성화) 라벨러부터 관리자까지 맞춤형 교육 과정을 운영·확대하여 데이터 구축 전문성을 높이고 경력개발 기회 제공

 

※ 필수 공통교육(인공지능 윤리, 개인정보 보호, 저작권 등)과 함께 수준별 교육 추진

 

< 인공지능 학습용 데이터 구축 참여인력 단계별 교육과정(안) >

구 분 교육 내용

일반라벨러 • (입문) 데이터 유형별 라벨링 기초, 라벨링 기본 가이드라인 등

• (기본) 라벨링 도구 활용법, 오류분석, 작업속도 향상 기법 등

• (심화) 유형별 고급 가공기법, 고난이도 분류 및 판별 기법 등

전문라벨러 • (전문분야) 특정 산업군(자율주행 등) 특화 라벨링

• (품질관리) 유형별 품질관리 검사 절차 및 방법, 분석 방법 등

관리자 • (프로젝트 관리) 데이터 구축 생애주기별 프로젝트 관리, 운영 등

※ ‘21년말까지 온·오프라인의 라벨러 및 관리자 교육 3개 과정 등 총 1만명 수료 목표

 

ㅇ 내실 있는 교육(매년 1만여명 규모)이 되도록 이수평가를 통한 수료자 관리와 이수자 피드백 기반의 교육과정 지속 개선·확대 추진

 

ㅇ 참여인력 수준 향상을 감안하여 중·고급 과정인 전문라벨러·관리자 과정 비중 점진 확대

 

□ (他 교육과정 연계) 데이터 구축·활용 저변을 확대하고, 데이터 구축 경험을 관련 분야 경력으로 발전시키도록 학교·직업교육 등 연계(’22~)

 

ㅇ 분야별 인공지능 학습용 데이터를 활용한 교육 및 실습과정을 개발하여 초·중·고등학교를 중심으로 보급·확산

 

※ 과학창의재단(인공지능 교육교사 연구회 운영), SW산업협회(SW 전문강사 양성) 등과 협력하여, 의견수렴 및 교육·실습과정을 개발하고 확산 방안 마련

 

ㅇ 데이터 구축 참여이력, 단계별 교육 수료이력 등을 인공지능·데이터 인재양성 및 직업교육 등과 연계하여 경력개발 지원

 

□ (크라우드소싱 적용 분야 확대) 단순 데이터 수집, 가공 작업에서 데이터 검수·품질관리 등 전문성이 요구되는 분야로 확대 추진

 

※ 데이터 검수·품질관리 관련 교육과정 도입·운영 및 일부 데이터 구축과제 적용 검토(‘22~)

Ⅴ. 추진일정

 

추진과제 관계부처 일정

 

1. 데이터 구축·개방 로드맵 수립·이행

 

󰊱 데이터 구축·개방 방향과 전략을 제시합니다

• 인공지능 학습용 데이터 구축 로드맵 지속 보완 전 부처 ‘22~

• 세부 데이터 구축과제 기획 전 부처 ‘22~

 

󰊲 시장에 필요한 데이터, 이렇게 구축·개방합니다

• 한국어 분야 데이터 구축 확대 과기정통부, 문체부 ‘22~

• 영상·이미지 분야 데이터 구축 확대 과기정통부 ‘22~

• 헬스케어 분야 데이터 구축 확대 과기정통부, 복지부, 산업부 ‘22~

• 교통·물류 분야 데이터 구축 확대 과기정통부, 국토부 ‘22~

• 재난·안전·환경 분야 데이터 구축 확대 과기정통부, 행안부, 환경부 ‘22~

• 농·축·수산 분야 데이터 구축 확대 과기정통부, 농식품부, 해수부 ‘22~

• 주요산업 분야별(전략분야2) 데이터 구축 확대 전 부처 ‘22~

 

󰊳 로드맵 이행 체계를 갖추어 나갑니다

• 범부처 과제기획위원회 운영 전 부처 ‘22~

• 한국어 분야, 농·축산 분야 과제 공동기획 추진 과기정통부, 문체부, 농식품부 ‘22~

 

2. 구축 데이터의 활용성과 가치 증진 지원

 

󰊱 쉽게 접근하고, 편리하게 활용할 수 있도록 합니다.

• 클라우드 토탈서비스 제공 과기정통부 ‘22.상~

• 데이터 접근성 개선방안 시범 운영 과기정통부 ‘22.상~

• 데이터 활용·환류 과제 신설·적용 과기정통부 ‘22~

• AI Hub의 민간채널과 연계·확장 강화 전 부처 ‘22.하~

• AI Hub 기능 고도화 과기정통부 ‘22.하~

• 개인정보보호 강화 대책 도입·추진 과기정통부, 개인정보위 ‘22.상~

 

󰊲 다양한 정부 지원사업과 연계하여 활용 가치를 높여갑니다.

• D.N.A. 지원사업간 연계방안 마련·추진 과기정통부 ‘22~

• 지능정보화사업과 데이터 구축활용 연계 전 부처 ‘22~

• 타 사업에 대한 AI Hub 데이터 제공 추진 전 부처 ‘22~

 

󰊳 믿고 쓸 수 있는 양질의 데이터로 만들어 갑니다.

• 선제적 품질관리체계 도입 과기정통부 ‘22.상~

• 기 구축 데이터 고도화 과제 신설·운영 과기정통부 ‘22~

• 데이터 특성별 맞춤형 데이터 구축방안 도입 과기정통부 ‘22~

• 데이터 신뢰성 확보 방안 도입 과기정통부 ‘22~

 

󰊴 데이터 구축에 함께한 분들의 성장을 지원합니다.

• 데이터 구축 참여자 수준·단계별 교육 활성화  과기정통부 ‘22~

• 他 교육과정과 연계 확대 과기정통부, 교육부, 고용부 ‘22~

• 크라우드소싱 적용 분야 확대 과기정통부 ‘22~

< 연도별 데이터 구축계획 및 소요예산(안) >

구분 ’20년(추경) ’21년 ’22년 ’23년 ’24년 ’25년 합계

구축량(종) 150 190 310 220 220 210 1,300

소요예산(억원) 2,925 3,705 5,797 4,114 4,114 3,927 24,582

※ 관계부처 및 국회 등 협의에 따라 조정·변동 가능

 

■ 분야별 관계부처 및 전문기관 협력 하에 인공지능 학습용 데이터 구축사업(과기정통부)을 통해 ’25년까지 1,300종의 인공지능 학습용 데이터 구축·개방 및 활용 확산을 추진