"AI 자료 되먹임 따른 모델붕괴 우려는 과장...위험 아닐 수 있다"

2024-11-03 10:09
  • * AI기술로 자동 요약된 내용입니다. 전체 맥락과 내용을 이해하기 위해서는 기사 본문 전체를 보시길 권장합니다

    AI(인공지능)가 만든 데이터를 AI 학습 자료로 되먹이면 급격한 성능 열화가 일어난다는 '모델 붕괴' 우려가 과장됐다는 진단이 나왔다.

    모델 붕괴 문제를 지적한 연구에서도 훈련 데이터에 인간 생성 데이터를 10%만 집어넣으면 성능 열화가 대폭 줄어드는 것으로 나타났다는 것이다.

    그는 "우리에게 필요한 것은 훈련 데이터에 AI 생성 자료가 얼마나 들어가는지를 세심히 추적하는 조처"라며 "인공 데이터를 골라내는 알고리즘이나 AI 콘텐츠에 붙이는 워터마크(식별표) 등의 도움을 통해 이런 작업을 더 쉽게 해낼 수 있을 것"이라고 내다봤다.

  • 글자크기 설정
앤드루 미국 스탠퍼드대 교수 사진카카오
앤드루 미국 스탠퍼드대 교수 [사진=카카오]

AI(인공지능)가 만든 데이터를 AI 학습 자료로 되먹이면 급격한 성능 열화가 일어난다는 '모델 붕괴' 우려가 과장됐다는 진단이 나왔다.
 
그동안 오픈 AI의 '챗GPT'처럼 웹 데이터를 쓰는 주요 AI 모델이 인공 자료 되먹임 탓에 곧 성능 저하의 벽에 부딪힐 것이라는 관측이 적지 않았다.
 
3일 AI 업계에 따르면 유명 AI 석학인 앤드루 응 미국 스탠퍼드대 교수는 최근 자신이 운영하는 뉴스레터 '더배치'(The Batch)에서 "모델 붕괴는 업계나 학계의 걱정과 달리 단기적으로 닥칠 수 있는 위험이 아니며, 아예 위험이 아닐 수도 있다"고 분석했다.
 
응 교수는 인공 데이터와 사람이 만든 데이터를 적절히 섞는 기법으로 이 문제를 얼마든지 피할 수 있다고 지적했다.
 
모델 붕괴 문제를 지적한 연구에서도 훈련 데이터에 인간 생성 데이터를 10%만 집어넣으면 성능 열화가 대폭 줄어드는 것으로 나타났다는 것이다.
 
그는 "우리에게 필요한 것은 훈련 데이터에 AI 생성 자료가 얼마나 들어가는지를 세심히 추적하는 조처"라며 "인공 데이터를 골라내는 알고리즘이나 AI 콘텐츠에 붙이는 워터마크(식별표) 등의 도움을 통해 이런 작업을 더 쉽게 해낼 수 있을 것"이라고 내다봤다.
 
인공 데이터 기술이 빨리 발전하는 것도 긍정적 요인이라고 응 교수는 전했다.
 
이미 AI 데이터 기반의 학습은 '라마3'와 '클로드' 등 유명 생성 AI에 널리 쓰이는 데다 가벼운 고효율 AI나 희귀 언어 번역기 등의 개발에 꼭 필요한 기법이라 앞으로 더 안정적인 기술이 나올 공산이 크다는 얘기다.
 
모델 붕괴 우려는 작년 봄 영국 옥스퍼드대 등의 연구진이 쓴 논문 '반복(recursion)의 저주: 인공 데이터를 통한 훈련이 모델을 망각에 빠뜨린다'가 화제가 되면서 업계에 널리 퍼졌다.
 
연구진은 논문에서 AI에 기계 생성 데이터를 계속 되먹이면 결국 모델의 학습이 교란돼 결괏값의 품질과 다양성이 크게 떨어진다는 사실을 입증했다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
공유하기
닫기
기사 이미지 확대 보기
닫기
언어선택
  • 중국어
  • 영어
  • 일본어
  • 베트남어
닫기