정부 'AI허브' 데이터, 사업화 활용비중 39%…활성화 방안 논의

2021-11-03 18:03
과기정통부 제2회 AI 데이터 활용협의회
전문가들 "양질 학습데이터 세분화 필요"

[사진=과학기술정보통신부 제공]


정부가 구축한 인공지능(AI) 학습용 데이터를 개방하는 'AI허브'의 데이터 활용 현황을 분석한 결과, 11만여건의 누적 다운로드 가운데 연구개발·테스트 비중 등 실제 사업화 준비 단계에 해당하는 목적의 비중이 39%에 불과한 것으로 나타났다. 산업계의 학습용 데이터 활용을 활성화하려면 분야별로 세분화된 양질의 데이터 확보와 이에 대한 정부 지원이 확대돼야 한다는 의견이 제시됐다.

과학기술정보통신부는 3일 'AI 데이터 활용협의회' 제2회 회의를 열어 대기업, 중소·스타트업, 유관기관 등의 전문가 의견을 수렴했다. 현대자동차 에어스컴퍼니, 카카오엔터프라이즈, LG AI연구원, 라이드플럭스, 미디어젠, 딥노이드, 비바엔에스, 대전도시철도공사, 한국전자통신연구원(ETRI), 광주과학기술원, 한국지능정보사회연구원(NIA), 한국정보통신기술협회 등 12곳이 참석했다.

과기정통부에 따르면 협의회에 참석한 전문가들은 "AI의 올바른 학습과 정확도 향상을 위해 분야별로 세분화되고 신뢰할 수 있는 양질의 데이터를 충분히 확보해 활용할 수 있는 환경을 조성해나가는 것이 가장 중요하다"고 봤다. 이들은 민간에서 확보하기 어려운 데이터 구축에 대한 정부 지원 확대와 지속적인 데이터 품질 개선과 활용성 증진을 지원할 필요성이 있다고 강조했다.

정부는 디지털뉴딜 정책 일환인 '데이터댐' 구축의 핵심 사업으로 오는 2025년까지 1300여종의 AI 학습용데이터 구축과 개방을 추진 중이다. 2017~2019년 개방한 21종의 데이터에 더해 지난 6월 음성, 자연어, 비전, 헬스케어 등 8대 분야 170종의 데이터를 추가 개방했다. 이후 3개월간 AI허브 일평균 접속자수 2.3배, 다운로드수 2.7배 증가와 데이터활용 저변 확대 성과를 보였다고 강조했다.

하지만 AI허브 데이터 활용 현황 가운데 11만13건의 누적 다운로드를 목적별로 나눠 보면 서비스·제품 신규 개발(19%), AI기술 연구개발(11%), AI모델·서비스 테스트(9%) 등 사업화 관련 비중이 39%에 그친다. 개인연구·공부(27%)와 단순한 데이터내용 분석·검토(6%) 비중이 작지 않고, 명확히 분류되지 않은 기타(28%) 비중도 큰 것으로 나타났다.

과기정통부와 NIA는 공공과 산업 현장에서 AI 서비스 개발과 고도화, 현장적용 등 사례 85건, 데이터 저작도구와 AI 솔루션 판매로 매출을 달성한 사례 25건, 대학·연구기관이 유력 학회, 학술지에 연구결과를 발표하고 논문을 게재한 사례 61건, 특허 출원 26건, 국내외 경진대회 수상 6건 등을 기록했다고 밝혔다.

자율주행차량용 데이터 구축에 참여하는 스타트업 라이드플럭스가 개발한 자율주행 시범서비스, 비대면 진료용 음성인식 서비스를 개발하는 미디어젠의 헬스케어서비스도 주요 사례로 소개했다. 개방 데이터 집중개선기간에 59건의 데이터 보완·개선·확장 요청에 따라 라벨링 보완과 재분류 등 일부 조치를 완료했고 추가 검토가 필요한 과제를 단계적으로 이행할 계획이라고 밝혔다.

조경식 과기정통부 제2차관은 대전도시철도공사가 역사 내 승객 위험상황 감지와 대응을 위해 이상행동탐지 CCTV 영상데이터를 구축하고 학습시켜 개발한 'AI CCTV 안전시스템' 시연을 참관하고 "AI 기술이 국민 일상생활까지 확산되는 좋은 사례"라면서 "디지털전환 성공을 위해 다양한 분야에서 양질의 데이터 구축과 활용이 뒷받침돼야 한다"라고 말했다.
 

조경식 과기정통부 제2차관이 3일 대전시청에서 개최된 제2회 인공지능 데이터 활용협의회에 참석한 산학연 관계자들과 인공지능 학습용 데이터에 대해 논의하고 있다. [사진=과기정통부 제공]