"AI 학습용 데이터, DB용 아니다"…정부 품질관리 지침서 보니

2021-03-06 12:11
앞서 구축·개방된 학습 데이터 21종 460만건
AI 개발하는 '사용자' 기대 못 미친다 지적돼
"비정형, 모델 성능≒품질기준"…DB와 차이점
올해 AI 학습용 데이터 구축사업에 적용 예정
텍스트·음성·이미지·영상 등 유형별 요령 제시

정부가 인공지능(AI) 학습용 데이터의 품질 높이기에 고심하고 있다. AI 학습용 데이터 구축 사업은 디지털뉴딜 핵심사업인 '데이터댐' 생태계 조성을 위한 주요 사업으로, 작년 데이터댐 사업 예산 6449억원 가운데 2925억원이 투입됐다.

앞으로 지속 추진될 AI 학습용 데이터 구축 사업 결과물이 실제 AI 학습에 활용되지 못하면 값비싼 무용지물이 된다. 이같은 사태를 막기 위해 AI 학습용 데이터의 품질 확보 방법을 다룬 지침서가 개발됐다. 이 지침서는 올해 현장에 도입된다.

6일 한국지능정보사회진흥원(NIA)은 과학기술정보통신부가 추진하는 AI 학습용 데이터 구축사업의 품질 확보를 위해 'AI 학습용 데이터 품질관리 가이드라인 v1.0'과 'AI 학습용 데이터셋 구축안내서'를 온라인으로 배포하고 있다. 이 가이드라인과 구축안내서는 데이터 생애주기를 기반으로 계획·구축·운영·활용 영역별 데이터 품질관리 활동을 정의하고 있다. 가이드라인에 "AI 학습용 데이터의 특성을 고려해야 한다"는 지적이 나온다. AI 학습용 데이터는 DB에 저장되는 데이터와는 본질적으로 차이가 있기 때문에, DB 품질관리와는 다른 별도의 품질관리 체계를 확보해야 한다는 설명이다.
 

[자료=한국지능정보사회진흥원 제공]


가이드라인은 기존 DB에 저장되는 데이터와 다른 AI 학습용 데이터의 특성을 다음 네 가지로 제시한다. 첫째, 텍스트·음성·이미지·영상 등 비정형데이터가 대다수를 차지하며, 파일 단위로 관리된다. 둘째, 임무정의, 획득, 정제, 라벨링 등 기계학습에 적합한 가공과 학습을 위한 '참값(Ground Truth)' 부여 등 단계별로 AI 학습용 데이터만의 품질 요구사항이 있다. 셋째, 학습 목적에 맞는 데이터가 AI 모델 성능 확보를 좌우하기 때문에, 구축과정에서 데이터 품질의 80~90%가 결정된다. 넷째, 사용자 관점에서 데이터 품질 수준이 AI 모델 성능 측정 결과로 평가되는 특성이 있다.

별권으로 제작된 구축안내서는 학습용 데이터셋을 구축할 때 데이터 획득 방법, 절차·항목, 데이터 정제 방법과 도구, 라벨링 등 주요 작업별로 직접 고려해야 할 사항을 설명한다. 텍스트, 음성, 광학문자인식(OCR) 이미지, 영상(동적·정적 이미지), 네 가지 데이터 유형으로 나눠 작업별로 품질을 높이는 요령과 결과물을 검사하는 방법을 소개하고 있다. 또 텍스트, OCR 이미지, 자율주행 영상 데이터 등 유형별 라벨링과 '어노테이션(Annotation·라벨링 작업시 원천데이터에 주석을 표시하는 일 또는 이를 통해 추가되는 설명정보 데이터의 표현방식)'에 일관되게 적용할 수 있는 '공통참조기준'도 제시한다.

이 가이드라인과 구축안내서는 올해 AI 학습용 데이터 구축사업부터 적용된다. 구축사업 참여기관으로 선정된 민간기업·기관들의 결과물 품질관리와 구축사업 수행역량을 높이는 데 기여할 것으로 정부 측은 기대 중이다. 과기정통부와 NIA는 디지털뉴딜 정책 시행 전인 2017년부터 AI 학습용 데이터 구축사업을 수행해 왔다. 그간 21종, 460만건의 AI 학습용 데이터를 구축해 민간에 개방했다. 하지만 데이터의 품질이 사용자가 원하는 수준에 못 미친다는 지적을 받았다. 이를 해결하기 위해 이번 가이드라인과 AI 학습용 데이터셋 구축안내서를 개발했다는 게 NIA 측 설명이다.

고윤석 NIA 지능데이터본부장은 "개발된 가이드라인과 구축안내서를 올해 구축사업에 적용하고, 산·학·연 전문가와 구축사업 수행기관, 참여기관의 의견을 수렴해 보완해 나갈 예정"이라고 말했다.
 

[사진=게티이미지뱅크]