AI(인공지능)가 만든 데이터를 AI 학습 자료로 되먹이면 급격한 성능 열화가 일어난다는 '모델 붕괴' 우려가 과장됐다는 진단이 나왔다.
그동안 오픈 AI의 '챗GPT'처럼 웹 데이터를 쓰는 주요 AI 모델이 인공 자료 되먹임 탓에 곧 성능 저하의 벽에 부딪힐 것이라는 관측이 적지 않았다.
응 교수는 인공 데이터와 사람이 만든 데이터를 적절히 섞는 기법으로 이 문제를 얼마든지 피할 수 있다고 지적했다.
모델 붕괴 문제를 지적한 연구에서도 훈련 데이터에 인간 생성 데이터를 10%만 집어넣으면 성능 열화가 대폭 줄어드는 것으로 나타났다는 것이다.
그는 "우리에게 필요한 것은 훈련 데이터에 AI 생성 자료가 얼마나 들어가는지를 세심히 추적하는 조처"라며 "인공 데이터를 골라내는 알고리즘이나 AI 콘텐츠에 붙이는 워터마크(식별표) 등의 도움을 통해 이런 작업을 더 쉽게 해낼 수 있을 것"이라고 내다봤다.
인공 데이터 기술이 빨리 발전하는 것도 긍정적 요인이라고 응 교수는 전했다.
이미 AI 데이터 기반의 학습은 '라마3'와 '클로드' 등 유명 생성 AI에 널리 쓰이는 데다 가벼운 고효율 AI나 희귀 언어 번역기 등의 개발에 꼭 필요한 기법이라 앞으로 더 안정적인 기술이 나올 공산이 크다는 얘기다.
모델 붕괴 우려는 작년 봄 영국 옥스퍼드대 등의 연구진이 쓴 논문 '반복(recursion)의 저주: 인공 데이터를 통한 훈련이 모델을 망각에 빠뜨린다'가 화제가 되면서 업계에 널리 퍼졌다.
연구진은 논문에서 AI에 기계 생성 데이터를 계속 되먹이면 결국 모델의 학습이 교란돼 결괏값의 품질과 다양성이 크게 떨어진다는 사실을 입증했다.