국민과 함께 채운 데이터댐 본격개방-6월 18일부터 한국어 음성, 건강관리, 자율주행 등 170종, 인공지능 중심지(aihub.or.kr)에 개방

댓글 0

판교핫뉴스

2021. 6. 18.

국민과 함께 채운 데이터댐 본격개방-6 18일부터 한국어 음성, 건강관리, 자율주행 등 170, 인공지능 중심지(aihub.or.kr)에 개방

작성일 2021-06-18 부서 데이터진흥과

 

 

 

국민과 함께 채운 데이터댐, 본격 개방

 

- 6월 18일부터 한국어 음성, 건강관리, 자율주행 등 170종, 인공지능 중심지(aihub.or.kr)에 개방

 

- 인공지능·데이터 기업, 대학, 병원 등 674개 기업·기관과 4만여명 국민 참여

 

- 혁신 창출·확산을 이끌 ‘인공지능 데이터 활용협의회’ 출범

 

- 9월까지 이용자 참여를 통해 데이터 집중개선

 

□ 과학기술정보통신부(장관 임혜숙, 이하 ‘과기정통부’)와 한국지능정보사회진흥원(원장 문용식, 이하 ‘지능정보원’)은 국내 인공지능 기술 및 산업 발전의 촉진제가 될 인공지능 학습용 데이터 170종(4억 8천만건)을 인공지능) 중심지(aihub.or.kr)를 통해 6월 18일부터 개방한다고 밝혔다.

 

ㅇ 또한, 과기정통부는 인공지능 학습용 데이터의 활용 촉진과 성과 확산 등을 위해 6월 18일(금) 오전 10시 LG사이언스파크에서 ‘인공지능 데이터 활용협의회’ 출범식을 갖고, 의견수렴을 위한 간담회를 개최하였다.

 

□ 과기정통부는 ’17년부터 기업, 연구자, 개인 등이 시간 및 비용 문제로 개별 구축하기 어려운 인공지능 학습용 데이터를 구축·개방해왔으며, ’20년부터는 디지털 뉴딜 ‘데이터 댐’ 구축 프로젝트의 일환으로 구축 규모를 대폭 확대하여 추진 중이다.

 

ㅇ 그동안(’17~’19년) 21종의 인공지능 학습용 데이터를 구축·개방하여 인공지능 중심지 이용자와 데이터 활용이 빠르게 증가하고 있으며, 개방 데이터를 활용한 인공지능 서비스 개발 및 성능 향상 등의 성과도 나타나고 있다.

 

* (이용자) ’19년 4,439명 → ‘20년 13,092명(누적), (활용) ’19년 16,177회 → ‘20년 49,085회(누적)

1 이번에 개방되는 인공지능 학습용 데이터(170종) 주요 특징

 

기업, 국민이 함께 만들어가는 인공지능 학습용 데이터

 

□ ’20년에 구축하여 이번에 개방하는 8대 분야 170종*의 인공지능 학습용 데이터는 데이터 기획부터 구축까지 산업계, 전문가뿐만 아니라, 많은 국민들이 참여한 결과물이기에 더욱 뜻깊다.

 

* 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종)

 

ㅇ 우선, 민간의 광범위한 수요를 바탕으로 분야별 산·학·연 전문가, 주요 활용기업 등이 직접 참여하여 산업 파급효과가 크고 민간에서 대규모로 구축하기 어려운 인공지능 학습용 데이터*를 기획하였다.

 

* 한국어 음성 데이터, 국내 도로주행 영상 데이터, 주요 암질환 영상 데이터 등

 

ㅇ 데이터 구축에는 국내 주요 인공지능·데이터 전문기업은 물론 주요 대학(서울대, 한국과기원 등 48개), 병원(서울대병원, 아산병원 등 25개) 등 총 674개 기업·기관이 대거 참여하였으며,

 

ㅇ 특히, 데이터 수집·가공 등 구축 과정에 경력단절여성, 취업준비청년 등 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여명이라는 많은 국민들의 참여를 이끌어내었다.

 

< ‘20년 인공지능 학습용 데이터 구축 예시 >

데이터명 참여기업·기관 주요 내용

한국어 방언 ■ 솔트룩스, 경북대학교 산학협력단, 인피닉, 제주국제자유도시개발센터, 나라지식정보 등  ■ 강원도, 경상도, 전라도, 제주도, 충청도 등 각 지역별 농어촌 주민 등의 실제 사투리 음성을 녹음하여 방언 데이터 구축

17개 기업·기관 ※ 지역 사투리를 정확하게 구사하는 고령층 지원자의 모집에 많은 애로가 있었지만, 구축업체에서 직접 노인분들을 찾아 뵙고 부탁하는 등 여러 난관을 극복하면서 수집 

해상 객체 ■ 선박해양플랜트연구소, 산엔지니어링, 슈어소프트테크, 지엠티 등 4개 기업·기관 ■ 금어기 어민과 전문항해사가 출항하여 촬영한 해상 객체 이미지 및 선박 항해 이미지를 바탕으로 데이터 구축

이미지 ※ 황금 어장이 영상으로 노출될 것을 우려한 어민들을 설득하는데 많은 노력을 기울여, 이를 극복하고 남해, 황해, 동해의 다양한 해상 영상을 수집

□ 인공지능 중심지(aihub.or.kr)에 대규모로 개방되는 인공지능 학습용 데이터의 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가와 전문기관, 활용기업 등이 힘을 모았다.

 

ㅇ 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영하여, 전문적 품질관리 지원체계를 구축하였고,

 

ㅇ 주요 대기업(네이버, LG, 삼성전자, KT, 현대차 등), 스타트업(딥노이드, 스트라드비젼, 비바엔에스 등), 대학 및 연구기관(KAIST, GIST, ETRI, 농정원 등) 등 20여개 기업·기관이 참여해 데이터 개방 전, 활용성 검토를 진행(5~6월)하여 실제 수요자가 요구하는 데이터 품질을 확보하고자 하였다.

 

□ 과기정통부와 지능정보원(NIA)은 데이터 개방 후에도 이용자 참여형 집중개선기간 운영(~9월) 등을 통해 이용자의 요구사항을 적극 반영하는 등 민·관 협력을 기반으로 데이터를 지속적으로 개선해나갈 계획이다.

 

산업 곳곳에 스며드는 고품질 인공지능 학습용 데이터

 

□ 이번에 인공지능(AI) 허브에 개방되는 인공지능 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업뿐 아니라, 대기업도 자체 확보하기 어려운 대규모 데이터를 제공한다는 점에서 그동안 국내 인공지능(AI) 산업계에서 가장 큰 걸림돌로 꼽은 문제인 ‘데이터 갈증’을 어느 정도 해소할 수 있을 것으로 전망된다.

 

ㅇ 그간 국내 인공지능 기업들은 인공지능 개발에 필요한 데이터 확보를 위해 해외 오픈데이터를 많이 활용해왔다. 그러나 한국어, 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 국내 인공지능(AI) 서비스 개발에 활용되기 어려운 문제가 있었다.

 

ㅇ 이번에는 지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등 ‘한국형 인공지능 학습용 데이터’가 대폭 확충되어, 국민이 체감할 수 있는 인공지능(AI) 서비스 개발이 가속화될 수 있을 것으로 기대된다.

ㅇ 대표적으로, 오는 6월 30일 공개를 앞두고 있는 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 인공지능(AI) 서비스의 문제점을 상당 부분 해결할 수 있을 것이다. 특히, 데이터 개방 전 활용성 검토 결과 “자연스러운 방언이 수집됨”, “기존 서비스의 인식률이 12% 향상됨” 등의 좋은 평가를 받기도 하였다.

 

ㅇ 또한, 6월 18일부터 6월 30일까지 순차적으로 공개될 자율주행 데이터(21종)는 국내 도로주행 영상뿐 아니라, 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다채로운 데이터를 제공하여, 자율주행차 개발을 한층 앞당길 것으로 기대되고 있다. 특히, 활용성 검토 결과, “특수 차선, 장애물, 포트홀 등 다양한 객체가 포함”된 점은 대표적인 장점으로 꼽힌다.

< ‘20년 구축 인공지능 학습용 데이터 활용성 검토 주요 결과 >

 

■ “기존 서비스에 방언데이터를 추가로 학습할수록 자유발화 인식률 향상”(대기업 A사)

 

■ “BERT/GPT 등 언어모델 학습 및 기존에 널리 활용되고 있는 한국어 데이터와 비교평가 시에도 만족스러운 결과 도출”(대기업 B사)

 

■ “자체 수집하기 어려운 장애물, 특수 차선, 포트홀 등 다양한 객체가 포함되어, 자율주행 기술개발에 크게 도움이 될 것”(스타트업 C사, 대기업 D사)

 

□ 그동안 과기정통부와 지능정보원(NIA)은 품질관리 전문기관인 한국정보통신기술협회(TTA) 및 전문기업 등과 협력하여 고품질의 데이터를 안전하게 활용하도록 데이터 품질관리 수준을 대폭 강화해왔으며, 향후 개보위와 개인정보 전문기관인 한국인터넷진흥원(KISA) 등과도 지속적으로 협력을 강화해나갈 계획이다.

 

ㅇ TTA는 전문가 및 활용기업 의견 수렴을 통해 품질기준을 정립하고, 이를 적용하여 전반적인 데이터 품질을 검증하였다. 

 

ㅇ 지능정보원(NIA)은 인공지능 데이터를 안심하고 사용할 수 있는 활용 여건을 조성하기 위해 이미지와 영상 데이터의 경우 사전에 개인정보 동의를 받아 구축하는 한편, 개인정보 등이 포함되지 않도록 한국어 텍스트 데이터 등은 시나리오를 기반으로 창작한 재현데이터로 구축하였다.

2 인공지능 학습용 데이터 활용 활성화 방안

 

인공지능(AI) 데이터 활용협의회 출범

 

□ 과기정통부는 인공지능 학습용 데이터의 대규모 개방과 함께, 데이터 활용 촉진과 성과 확산 등을 위해 6월 18일 ‘인공지능(AI) 데이터 활용협의회’ 출범식을 갖고, 현장 간담회를 개최하여 데이터를 실제로 활용하는 기업·기관들의 생생한 의견을 수렴하였다.

 

ㅇ ‘인공지능(AI) 데이터 활용협의회’는 데이터 품질관리 전문기관인 TTA와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성되었으며, 인공지능(AI) 허브 데이터를 적극 활용하고 성과를 공유·확산하는 한편, 데이터 품질 제고와 지속적 개선에 협력해 나갈 예정이다. 

 

ㅇ 지능정보원(NIA)은 향후 참여를 희망하는 기업 및 기관을 중심으로 협의회를 지속적으로 확대해 나갈 계획이다.

 

이용자 친화적 활용환경 조성

 

□ 지능정보원(NIA)는 대규모 인공지능 학습용 데이터의 본격적인 개방에 발맞춰 인공지능(AI) 허브(aihub.or.kr) 활용환경을 대폭 개선한다.

 

ㅇ 본인인증 한 번만으로 데이터에 대한 접근 및 활용이 가능하도록 회원가입 시스템을 개선하고*, 직관적인 데이터 탐색을 위해 UI/UX도 개선하였다. 올 하반기에는 데이터 검색체계를 과제명중심에서 자동차, 표지판 등 사물·객체 중심으로 개편할 계획이다. 

 

* 데이터 활용을 위해 회원가입 혹은 최초 데이터 다운로드 신청 시, 휴대전화 본인인증을 진행한 후, 활용 승인 절차 없이 다운로드 가능

< 현재 >  < 개선 > 

 

□ 또한, 인공지능 학습용 데이터를 활용한 알고리즘 고도화 등을 지원하기 위해 데이터 활용 경진대회도 추진할 계획이다.

 

□ 이와 함께, 헬스케어 데이터의 활용 활성화를 위해 폐쇄형 안심존의 확대 및 클라우드 기반의 개방형 안심존 구축도 추진한다.

 

3 데이터 개방일정 및 후속조치 계획

 

 

□ 과기정통부와 지능정보원(NIA)은 ’20년에 구축한 8대 분야 170종의 데이터를 6월 18일 60종을 시작으로 6월말까지 순차적으로 개방할 예정이다.

 

ㅇ 특히, 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 6월 30일에 개방할 계획이다.

 

□ 이번 개방은 데이터 제공과 더불어, 이용자와 함께 더 나은 데이터 제공을 위한 개선점을 찾기 위해 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다.

 

ㅇ 데이터 개방과 함께, 인공지능(AI) 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영하고, 전문기관(TTA, KISA 등)과 협력하여 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF를 운영한다.

 

ㅇ 해당 기간 동안 데이터 개선에 도움이 되는 의견을 제시한 이용자에게는 추첨을 통해 소정의 상품도 지급하여 참여를 독려할 예정이다.

 

< 인공지능 학습용 데이터 이용자 참여형 품질개선체계(안) >

 

□ 과기정통부 임혜숙 장관은 ‘인공지능(AI) 데이터 활용협의회’ 출범식에 참석한 기업과 기관들을 격려하며, “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리활용되어 혁신의 열매를 맺을 수 있기를 기대한다.”라고 하며,

 

ㅇ “정부도 고품질의 인공지능 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다.”라고 강조하였다.

 

붙임 1. 인공지능(AI) 데이터 활용협의회 출범 및 간담회 계획

2. 인공지능(AI) 데이터 활용협의회 개요

3. 인공지능 학습용 데이터 구축 참여 사례

4. 인공지능 학습용 데이터(170종) 주요 내용

5. 인공지능 학습용 데이터(170종) 목록 및 개방 일정

 

붙임1 인공지능(AI) 데이터 활용협의회 출범 및 간담회 계획

 

□ 행사 개요

 

ㅇ (목적) ’20년 구축한 대규모 인공지능 학습용 데이터 개방과 함께, 데이터 활용·확산 추진 등을 위한 활용협의회 출범 및 간담회 개최

 

ㅇ (일시/장소) 6월 18일(금) 10:00~11:20 / LG 사이언스파크 ISC

 

ㅇ (주요내용) ① 인공지능 학습용 데이터(170종) 개방 발표, 

② ‘인공지능(AI) 데이터 활용협의회’ 출범식, ③ 현장 간담회

 

ㅇ (주요 참석자) 정부, 인공지능 분야 주요 기업·기관, 대학·연구소 등 20명

 

- (정부·공공) 과기정통부 장관, BH 과기보좌관, 인공지능기반정책관,

지능정보원(NIA) 원장, 한국정보통신기술협회(TTA) 회장 등

 

- (산업계) 대기업(LG, 네이버, KT, SKT, 현대자동차, 삼성전자),

스타트업(스트라드비젼, 비바엔에스, 딥노이드, 원투씨엠)

 

- (학계·연구계) KAIST, GIST, ETRI, 농정원

 

□ 세부 내용(안)

시간 주요 내용 비고

10:00~10:12  12‘ ■ LG 이노베이션 갤러리 투어 방문 LG 사이언스파크 대표

10:12~10:15 3‘ ■ 여는말씀 NIA 원장

10:15~10:18 3‘ ■ 격려말씀 과기정통부 장관

10:18~10:24 6‘ ■ 인공지능 학습용 데이터 개방 발표 NIA 지능데이터본부장

- 사업 및 데이터 개방 계획 소개

- 인공지능 데이터 활용협의회 소개

10:24~10:29 5‘ ■ 활용협의회 출범 선포 및 기념촬영 -

10:29~11:20 51‘ ■ 간담회 -

12‘ - 기업별 데이터 검증 및 활용 사례 소개 네이버/KT/

스트라드비젼/비바엔에스

37‘ - 자유토론 참석자 전원

2‘ - 마무리 말씀 과기정통부 장관

붙임 2 인공지능(AI) 데이터 활용협의회 개요

 

□ 추진배경

 

ㅇ 인공지능 학습용 데이터 대규모 개방과 함께, 그간의 기획 및 구축·품질관리 단계의 민·관 협력을 개방 후 활용단계까지 확대하여 데이터 활용 활성화 및 성과 창출 도모

 

< 인공지능 학습용 데이터 전주기 민·관 협력 >

 

∎ (기획) 분야별 산·학·연 전문가, 활용기업이 참여하는 과제기획위 운영(60여명, ‘20.5월~)

0

∎ (구축) 주요 AI·데이터 기업과 대학, 병원 등 총 674개 기업·기관뿐 아니라, 4만여명의 국민들이 참여하여 170종 데이터 구축

 

∎ (품질관리) 8대 분야별 산·학·연 전문가 품질자문위 운영(80여명, ’20.9월~)

데이터 개방 전, 분야별 활용기업*이 참여하여 활용성 검토(22개, ‘21.5~6월)

 

* 대기업(네이버, 삼성전자 등), 스타트업(스트라드비젼, 딥노이드 등), 학계·연구계(KAIST, ETRI 등)

 

□ 인공지능(AI) 데이터 활용협의회 개요

 

ㅇ (구성) 국내 인공지능 분야 주요 기업·기관, 대학·연구소 및 협회 등

 

- ’20년 구축 데이터 활용성 검토 참여기관을 중심으로 우선 출범한 후 참여기업·기관을 지속적으로 확대 추진

 

< 인공지능(AI) 데이터 활용협의회 구성(안) >

 

∎대기업(LG, 네이버, 삼성전자, SKT, 현대차, KT 등), 스타트업(딥노이드, 스트라드비젼, 비바엔에스 등), 학계(KAIST, GIST 등), 연구계(ETRI, 농정원 등), 품질관리 전문기관(TTA) 등 18개 기관

 

∎협의회 간사 : 한국지능정보사회진흥원(NIA)

 

ㅇ (역할) AI 허브 데이터 적극 활용 및 피드백을 통한 지속적 데이터 품질 개선, 신규·추가 과제 기획 협력 등

 

< 인공지능 학습용 데이터 구축·개방 흐름도 >

 

붙임 3 인공지능 학습용 데이터 구축 참여 사례

구분 주요 내용

경력단절 여성  결혼과 동시에 회사를 그만두고 지방으로 이주하여 재택근무가 가능한 데이터 일자리를 통해 다시 업무경력을 이어나가게 됨

 

 코로나19로 인해 재취업에 어려움을 겪다가 크라우드소싱 기업이 제공하는 ‘데이터 라벨링’ 교육에 참여한 후 자유로운 출퇴근으로 가정경제도 회복하고 자녀양육이 가능하여 만족도가 매우 높음

취업준비 청년  학원비 및 생활비 등을 충당하는 아르바이트 매장이 코로나19 확산으로 매장이 문을 닫게 되어 한국어-영어 번역문장을 올리는 작업에 틈틈이 참여하여 경력도 쌓고 생활비 걱정 없이 취업준비에 매진

실직자  코로나19의 여파로 여행사가 폐업하여 실직하게 되었으나, 인공지능 학습용 데이터 구축 참여를 통해 생활에 도움이 되는 새로운 일자리를 얻을 수 있었음

장애인  자폐성 장애를 극복하고 사회적 기업에 정식직원으로 채용되어 자율주행차와 관련된 표지판과 신호등 라벨링 작업을 수행

중장년층  두 딸을 시집 보내고 외로움과 불면증이 있었으나 데이터 라벨링 작업이 적성에 맞아 전업 크라우드워커로 활동하면서 제2의 인생 시작

 

 과거 국회DB 전산화 작업 경력을 살려 데이터 가공 관리자로 재취업에 성공하여 이전 직장보다 더 좋은 환경에서 일할 수 있게 됨

소상공인  코로나19 여파로 가게 운영이 어려워졌으나, 가게에서 틈틈이 데이터 가공 작업에 참여하며 수입을 보충

정식직원  아르바이트에서 시작한 데이터라벨링에서 능력을 인정받아 한달만에 직원으로 채용되어, 크라우드워커들을 교육하고 가이드라인을 만들며 작업한 결과물을 검수하는 등 다양한 업무를 수행

성장

 여성새로일하기센터에서 라벨러 교육을 받으며 MOU를 체결한 기업 프로젝트에 참여하다가 정식 직원으로 채용

 

 정부의 인공지능 학습용 데이터의 다양한 프로젝트에 참여 했다가 빠른 시간에 전문성을 인정받아 정식 직원으로 채용

전문직 경력 발전  지적측량과 항공정비 등 2개 분야의 자격증을 보유하여 드론을 활용한 지적측량 데이터 구축사업에 계약직으로 참여하다가 정규직으로 전환

붙임 4 인공지능 학습용 데이터(170종) 주요 내용

 

구분 주 요 내 용

음성·자연어  대화‧명령어·방언 발화 음성, 한국어-외국어 말뭉치 등 39종

 

- 사람의 언어와 음성을 인식하고, 대화에 내포된 의미와 맥락을 정확히 이해하고 대응할 수 있도록 하는 다양한 한국어 데이터 확보

헬스케어  암, 뇌질환, 피부, 치과 등 다양한 의료 데이터 32종

 

- 건강관리, 질병검진에서부터 예방‧예측, 치료에 이르는 전 과정 스마트 의료 혁신을 뒷받침할 임상 중심의 의료영상 데이터 확보 

자율주행  주행영상, 객체‧장애물 이미지 등 자율주행 데이터 21종

 

- 자율주행차, 드론 등 지능형 모빌리티 산업의 핵심 기반이 되는 국내 실제도로 기반의 대규모 자율주행용 데이터 확보

비전  방송·광고 영상 및 스포츠 동작 영상 등 15종

 

- 시각 지능기술의 혁신을 통해 인간 수준으로 사물을 인지하고, 다양한 상황을 판단할 수 있는 밑바탕이 되는 이미지‧영상 데이터 확보

국토환경  토지‧산림 위성 이미지, 수질오염 이미지 등 12종

 

- 국내 생태계 보호, 환경오염 방지활동의 지능화 혁신이 가능하도록 항공·위성사진, 오염원‧폐기물 관련 데이터 확보

농축수산  국내 주요 작물, 가축, 어류의 영상 및 질병 데이터 14종

 

- 1차 산업인 농·축·수산업의 디지털 전환, 스마트화의 실현에 필요한 작물, 가축, 양식어류 등에 대한 인공지능 학습용 데이터 확보

안전  CCTV영상, 이상행동, 교통흐름·재난상황 데이터 등 19종

 

- 지속적으로 발생하는 재난 및 안전, 보안사고에 대한 선제적 대응 및 지능화 대응 체계의 구축과 고도화에 필수적 데이터 확보

기타  소상공인-고객 질의응답, 패션상품 및 착용영상 데이터 등 18종

 

- 패션, 교육, 반려동물 등 다양한 분야의 인공지능 기반 혁신서비스 확산을 위한 인공지능 학습용 데이터 확보

분야 세부데이터명 6.18 6.21~30

음성‧자연어 자유대화(일반남여) O

(39종) 자유대화(노인남여) O

자유대화(소아남여, 유아 등) O

한국인 외래어 발화 O

명령어(일반남여) O

명령어(노인남여) O

명령어(소아남여, 유아) O

차량 내 대화 및 명령어 데이터 O

한국어 강의 데이터 O

회의 음성 데이터 O

고객 응대 데이터 O

상담 음성 데이터 O

한국어 방언 발화 데이터 (강원도) O

한국어 방언 발화 데이터 (경상도) O

한국어 방언 발화 데이터 (전라도) O

한국어 방언 발화 데이터 (제주도) O

한국어 방언 발화 데이터 (충청도) O

논문자료 요약 데이터 O

도서자료 요약 데이터 O

한국어 대화 요약 데이터 O

도서자료 기계독해 O

민원(콜센터) 질의-응답 데이터 O

전문분야 말뭉치 데이터 O

한국어 SNS 데이터 O

한국어-영어 번역 말뭉치(기술과학) O

한국어-영어 번역 말뭉치(사회과학) O

한국어-중국어 번역 말뭉치(기술과학) O

한국어-중국어 번역 말뭉치(사회과학) O

한국어-일본어 번역 말뭉치 O

야외 실제 촬영 한글 이미지 O

다양한 형태의 한글 문자 OCR O

공공행정문서 OCR O

생활 및 거주환경 기반 VQA O

한자 글자체 인식 OCR O

수어 영상 O

한국인 대화음성 O

문서요약 텍스트 O

전문분야 한영 말뭉치 O

감성 대화 말뭉치 O

비전 영유아 교육영상 콘텐츠 방송 데이터 O

(15종) 장면인식‧인물인식을 위한 방송영상 콘텐츠 데이터 O

영상이해(맥락) 기술을 위한 방송영상 콘텐츠 데이터 O

한국인 감정인식을 위한 복합영상 데이터 O

비디오 요약 영상 데이터 O

신체말단 움직임 영상 데이터 O

사람 동작 영상 데이터 O

K-pop 안무 영상 데이터 O

스포츠 사람동작 데이터(골프) O

스포츠 사람동작 데이터(농구) O

스포츠 사람동작 데이터(축구) O

고해상도 Lightfield 카메라 데이터 O

이미지 초해상화(Super Resolution)를 위한 데이터 O

대용량 동영상 콘텐츠 O

시각정보 기반 질의응답 O

헬스 위암 진단을 위한 의료영상 데이터 O

케어 대장암 진단을 위한 의료영상 데이터 O

(32종) 신장암 진단을 위한 의료영상 데이터 O

전립선암 진단을 위한 의료영상 데이터 O

간암 진단을 위한 의료영상 데이터 O

담낭암 진단을 위한 의료영상 데이터 O

췌장암 진단을 위한 의료영상 데이터 O

폐암 진단을 위한 의료영상 데이터 O

갑상선암 진단을 위한 의료영상 데이터 O

유방암 진단을 위한 의료영상 데이터 O

뇌혈관 질환진단을 위한 의료영상 데이터 O

치매진단을 위한 의료영상 데이터 O

인지기능 장애 진단을 위한 음성/대화데이터 O

수면질 평가 및수면장애 진단을 위한 데이터 O

피부질환 진단을 위한 의료영상 데이터 O

구강질환 진단을 위한 의료영상 데이터 O

치과질환 진단을 위한 의료영상 데이터 O

신경계 질환 관련 임상 및 진료 데이터 O

재활운동에 활용하기 위한 센서 모션 데이터 O

건강관리를 위한 음식 이미지 데이터 O

헬스케어 웨어러블 기반 치매 고위험군 라이프로그 데이터 O

폐암 예후 예측을 위한 AI데이터 O

모발이식 인공지능 학습용 데이터 O

비대면 진료를 위한 의료진 및 환자음성 AI데이터 O

자궁경부암과 자궁경부상 피내종양 진단영상 데이터 O

PET/CT 영상 및 체성분 분석 데이터 O

유형별 두피 이미지 인공지능 학습용 데이터 O

사람 인체자세 3D O

질병진단(부비동, 유방조직) O

피트니스 자세 이미지 O

치매진단 뇌파영상 O

구강악 2D·3D 이미지 O

자율 차선/횡단보도 인지영상(수도권) O

주행 차선/횡단보도 인지영상(광역시, 고속도로, 국도등) O

(21종) 신호등/도로표지판 인지영상(수도권) O

신호등/도로표지판 인지영상(광역시, 고속도로, 국도등) O

주차 장애물 인지영상 O

주차관련 이동체 인지영상 O

차량, 사람 및 영상 인지영상 O

주행 중 건물 촬영 이미지 O

도로장애물/표면 인지영상(수도권) O

도로장애물/표면 인지영상(광역시, 고속도로, 국도등) O

자율주행버스 개발을 위한 노선주행 이미지 O

드론 이동체 인지영상(도로고정) O

드론 이동체 인지영상(전방고정) O

항만 구조물 영상 O

도심혼잡 버드아이뷰 O

교통약자 주행영상 O

특수환경 자율주행 3D O

버스 승객 승하차 영상 O

자율주행드론 비행 영상 O

도로환경 파노라마 이미지 O

도로주행 영상 O

농축 드론 농경작지 촬영 영상 O

수산 농산물품질(QC) 이미지 O

(14종) 시설작물 개체영상 O

주요 농작물 생육 이미지 데이터 O

시설작물 질병진단 이미지 O

노지작물 해충진단 이미지 O

노지작물 질병진단 이미지 O

과수화상병 촬영 영상 O

축산물품질(QC) 이미지 O

가축 행동 영상 O

어류 행동 영상 O

어류개체 촬영영상 O

제주 월동작물 자동탐지를 위한 드론 AI학습데이터 O

동의보감 약초 판별을 위한 AI데이터 O

국토 토지피복지도 항공위성 이미지 데이터[수도권] O

환경 토지피복지도 항공위성 이미지 데이터[강원및충청] O

(12종) 산림수종 이미지 데이터[수도권] O

산림수종 이미지 데이터[강원및충정] O

수질측정 및 오염원 데이터 O

산업 폐기물 이미지 O

생활 폐기물 이미지 O

상하수도관 공간 및 누수데이터 O

열화상 카메라 데이터[산업단지등] O

위급상황 음성/음향 데이터 O

열화상 체온정보 데이터 O

해양침적 쓰레기 이미지 데이터 O

안전 교통문제 해결을 위한 CCTV 교통데이터(고속도로) O

(19종) 교통문제 해결을 위한 CCTV 교통데이터(시내도로) O

졸음운전 예방을 위한운전자 상태정보 영상데이터 O

자동차차종/연식/번호판 인식용 데이터 O

항공활주로 내 이상물체 감지를 위한 객체 데이터 O

공사현장 안전장비 인식 데이터 O

화재 발생 예측 데이터 O

CCTV 이상행동 영상 데이터 O

CCTV 추적 영상 데이터 O

1인칭시점 보행 영상 데이터 O

어린이 보호구역 내 어린이 도로보행 위험행동 영상데이터 O

시니어 이상행동 모니터링 데이터 O

건물균열 탐지드론 개발을 위한 이미지 O

노후 시설물 이미지 데이터 O

안면 인식 데이터(Face in the wild) O

Liveness Detection을 위한 영상 데이터 O

기계시설물 상태모니터링 및 IoT 센서 데이터  O

전력설비 에너지 품질 데이터 O

한국인 재식별 이미지 O

기타 실내 라이다 및 카메라 동기화 데이터 O

(18종) 의류 가상착용 3D 데이터 O

AR/VR 화면정확도 향상을 위한 플렌옵틱 카메라 데이터 O

상품 이미지 데이터 O

소상공인 고객주문질의-응답 데이터 O

로봇 관점 주행 영상 데이터 O

음식분류를 위한 음식종류 및 양에 따른 칼로리 데이터 O

반려동물 구분을 위한 동물 영상 O

수학분야 학습자 역량 측정 데이터 O

k-뷰티 헤어스타일 이미지 AI데이터 O

해상객체 AI데이터 O

서비스 로봇용 인터랙션 데이터 O

패션상품 및 착용 영상 데이터 O

상표 이미지 및 상표텍스트 AI 데이터 O

딥페이크 변조영상 O

랜드마크 이미지 O

K-Fashion 이미지 O

위성영상 객체판독 O

60 110

※ 상기 일정은 일부 조정될 수 있음

붙임 5 인공지능 학습용 데이터(170종) 목록 및 개방 일정