[2023 GGGF] 문송천 교수 "AI의 먹이 '데이터' 절반이 엉터리…제대로 된 데이터 설계 없이 AI 미래 없다"

김혜란 기자 2023-09-07 08:22

"데이터라는 '원재료'가 제대로 갖춰지지 않으면 AI라는 '요리'는 결국 실패합니다."

문송천 KAIST 경영대학원 명예교수가 6일 서울 플라자호텔에서 아주경제신문 주최로 열린 '제15회 착한 성장, 좋은 일자리 글로벌 포럼(2023 GGGF)'에서 'AI데이터 신뢰도 문제'를 주제로 한 기조강연을 통해 "현존하는 데이터 절반이 엉터리"라며 "데이터가 뭔지 정확히 알고 데이터 설계를 제대로 해야 비로소 AI 시대가 도래했다고 말할 수 있다"고 강조했다.

정부나 기업이 각종 데이터를 확보해 AI 플랫폼에 적용하면 즉각 성과를 얻어낼 수 있을 것으로 기대하지만 원하는 결과가 나오지 않을 때가 많다.

문 교수는 그 이유로 '데이터'를 꼽았다. 많은 데이터를 보유하고 있어도 필요한 정보를 담고 있는지, 중복되거나 편향되지는 않았는지, 설계와 관리는 제대로 됐는지에 따라 결과가 달라지기 때문이다.

관련기사

데이터 설계 실패에 대한 예시로 지난해 말 이태원 참사에서 무용지물이 된 재난안전통신망, 4세대 나이스(교육행정정보시스템) 오류, 북한 무인기 탐지 실패 등을 들었다.

문 교수는 "지금도 엉터리 데이터가 많고 중복 데이터가 많다. 그러니까 4세대 나이스도 '시험지'를 출력했을 때 다른 학교 답안지가 나오는 것"이라며 "상황이 이렇게 되면 데이터를 활용해 무언가 결과물을 얻어내는 데 정확성도 낮고 시간도 많이 걸린다"고 지적했다.

특히 나이스와 같은 국가 데이터 설계 오류로 인한 추가 비용이 10조원을 넘을 것이라고 추산했다.

문 교수는 IT 용어 '클라우드(CLOUD)'를 처음 만든 소프트웨어(SW) 1세대 학자이기도 하다. 그는 데이터가 뭔지 분별할 수 있는 원리를 설명하기 위해 이 용어를 만들었다고 설명했다.

그는 "CLOUD라는 용어는 'Class·Object·Ubiquitous·Distributed'에서 앞머리를 따왔다"며 "신뢰성 있는 AI를 실현하기 위해서는 불확실성, 부정확성, 불평등성 가능성이 없는 완벽히 정제된 데이터만 사용한다는 것을 강조하기 위한 의도였다"고 말했다.

선별된 데이터를 제대로 설계하는 게 AI 시대에 근간이 된다고도 강조했다. 이는 '데이터 지도'를 통한 기초 설계로, 이는 데이터 간 긴밀한 연계로 '관계성'을 높이는 데 목표를 둔다.

문 교수는 "데이터 지도는 데이터가 교통지도처럼 다 연결된 상태를 말한다. 그런 관계 구조가 형성돼 있어야 품질 높은 결과물을 얻을 수 있다"며 "북한 무인기를 레이더가 감지했어도 서울시가 재난문자를 보내지 못했던 건 전방 군대에서부터 수도방위사령부, 그리고 서울시로 이어지는 데이터 전달 체계가 부재했기 때문"이라고 말했다.

끝으로 그는 "기본을 갖추게끔 뜯어고치면 데이터 문제가 사라지고, 4개월 내로 충분히 해결할 수 있다"면서 "정부는 AI 모델에만 집착할 것이 아니라 제대로 된 AI 실현을 위한 데이터 선별력 강화와 데이터 설계 전문가 양성에 힘써야 할 것"이라고 강조했다.