[테크인트렌드] AI 병목현상으로 떠오른 학습데이터, 이르면 2년뒤 고갈된다
2024-07-16 06:00
늦어도 2028년까진 90% 확률로 데이터 소진량이 생산량보다 많을 것
저작권 문제 떠올라…학습 데이터 활용 범위↓
'AI가 AI를 가르쳐'…합성데이터 활용, 거짓정보 무한확대 가능성↑
저작권 문제 떠올라…학습 데이터 활용 범위↓
'AI가 AI를 가르쳐'…합성데이터 활용, 거짓정보 무한확대 가능성↑
인공지능(AI) 시대가 도래했다. AI는 이미 금융, 의료, 법률 등 다양한 산업에 침투해 해당 산업 패러다임을 바꾸고 있다. 일종의 게임 체인저 역할을 한다. 시장조사업체 '리서치 앤 마켓'에 따르면 2024년 생성 AI 전체 시장 규모는 약 25조원으로 추정된다. 지난해 13조6400억원에서 약 32.7% 증가한 규모다. 업체는 이 같은 추세가 지속된다면 2028년엔 약 80조원에 달할 것으로 전망했다.
그러나 이런 장밋빛 전망에 제동이 걸릴 거란 우려가 나온다. AI 모델이 성능 발전을 지속하려면 학습 데이터가 필수적인데, 학습할 양질의 데이터가 부족할 거란 전망이 나와서다. 양질의 데이터란 사람이 만들어낸 데이터를 의미한다. 책, 뉴스 기사, 학술 논문, 위키백과 등을 꼽을 수 있다. AI는 그간 양질의 데이터를 통해 급속도로 성장해 왔다. 하지만 사람이 데이터를 만들어 내는 속도보다 AI가 이를 학습(소모)하는 속도가 더 빠르다는 점이 문제시되는 상황이다.
"2년 후 데이터 고갈될 수도···GPT-5 학습에 10조~20조개 토큰 부족"
미국 AI 연구기관 '에포크 연구소'는 2년 후인 2026년부터 2032년 사이 AI 학습용 데이터가 모두 소진될 수 있다고 경고한다. 생성 AI의 성능 발전에 큰 차질이 발생할 수 있다는 의미다. 늦어도 2028년까진 90% 확률로 소진되는 데이터 양이 새롭게 만들어지는 양을 앞설 것으로 에포크 연구소는 예측한다.
향후 출시될 생성 AI의 학습 데이터 양은 이보다도 막대할 것으로 예상된다. 에포크 연구소는 GPT-5는 약 60조개 토큰의 데이터를 학습할 것으로 예상된다. 에포크 연구소가 '친칠라 스케일링 법칙'을 통해 계산한 결과다. 친칠라 스케일링 법칙은 업계에 통용되는 법칙으로서 생성 AI가 성능을 발휘하기 위해 필요한 학습 데이터 양을 추정하는 법칙이다.
문제는 현재 사용 가능한 양질의 데이터를 모두 합쳐도 GPT-5 학습에 10조~20조개 이상 토큰이 부족할 수 있다는 것이다. 에포크 연구소는 사람이 만든 데이터가 연간 최소 6.41%에서 17.49% 정도 데이터를 생산할 것으로 추정한다. 그중 생산된 양질의 데이터는 연간 4%에 불과하다. 생성 AI를 학습하는 데 필요한 데이터는 몇 배씩 늘고 있지만 신규 데이터 양은 턱없이 부족하다는 것이다.
빅테크와 美 작가협·NYT 저작권 소송 中···프랑스선 벌금 부과
생성 AI를 학습시키는 과정에서 저작권 관련 분쟁도 늘고 있다. 이 역시 생성 AI를 학습시키기 위한 가용 데이터에 부정적인 요인이라 볼 수 있다. 기존엔 크롤링과 같은 방법 등을 통해 데이터를 수집했다. 크롤링은 특정 웹사이트에서 필요한 정보를 자동으로 가져오는 과정이다. 인터넷에 필요한 자료를 찾아 공책에 정리하는 과정과 비슷하다고 볼 수 있다.
미국작가협회와 언론사, 출판사 등 학습 데이터 저작자들이 글로벌 빅테크 기업을 향해 저작권 침해 문제를 계속 제기하고 있다. 특히 이들이 생산하는 데이터가 양질의 데이터임을 감안할 때 향후 생성 AI의 학습 데이터 수가 더욱 줄어들 수 있다는 우려도 나온다.
미국작가협회는 지난해 10월 오픈 AI를 상대로 저작권 침해 소송을 제기했다. 협회엔 작가 1만4000여 명이 가입해 있다. 협회는 "작가들 작품이 없었다면 생성 AI는 지금처럼 인기를 끌지 못했을 것"이라며 "(오픈 AI는) 작가들에게 어떠한 선택권과 보상을 제공하지 않고 작품을 무단으로 복사했다"고 주장했다.
그러면서 "최근엔 GPT가 인기 판타지 소설 '왕좌의 게임' 저자 조지 R. R. 마틴의 '얼음과 불의 노래' 6~7권을 무단으로 생성하려는 시도가 있었다"고 강조했다. 이번 소송엔 마틴도 원고로 참여한다.
뉴욕타임스도 지난해 12월 오픈AI와 마이크로소프트(MS)에 소송을 제기했다. 두 기업이 생성 AI를 학습하는 과정에서 뉴욕타임스 기사를 무단으로 사용했다는 것이다. 뉴욕타임스는 지난해 4월부터 두 기업과 콘텐츠 사용료 지불 등을 놓고 협상을 이어갔지만 끝내 결렬됐다. 두 회사가 뉴욕타임스가 제시한 금액을 맞추지 못했다는 말이 나온다.
뉴욕타임스 측은 "(두 기업은) 생성 AI를 학습하는 데 기사 수백만 건을 사용했다"며 "이제 생성 AI가 정보 창구로서 타임스 독자층을 빼앗고 광고·구독 수익에 부정적 영향을 미친다"고 주장했다. 이어 "추산된 피해액은 수십억 달러에 이른다"고 강조했다.
프랑스에선 실제 데이터 무단 학습에 벌금을 부과한 사례가 나오기도 했다. 프랑스 경쟁 규제 기관인 경쟁당국은 지난 3월 구글이 언론사 콘텐츠로 제미나이를 훈련했지만 이를 언론사나 당국에 알리지 않았다는 점에서 벌금으로 약 3600억원을 부과했다.
글로벌 빅테크, 데이터 확보에 혈안···교묘히 저작권 피하기도
이 같은 움직임이 거세지자 글로벌 빅테크 기업들은 데이터를 확보하기 위해 본격적으로 나서고 있다. 저작권 분쟁이 심해지자 과거처럼 무단으로 학습 데이터를 확보하는 것이 어려워졌기 때문이다. 마치 사람이 학습하기 위해 책을 구매해 공부하는 것처럼 생성 AI를 학습시키기 위해 학습 데이터를 사드리는 것이다.
오픈AI는 지난 5월 뉴욕코퍼레이션과 5년간 콘텐츠 제휴 계약을 맺었다. 뉴욕코퍼레이션은 월스트리트저널과 뉴욕포스트, 더타임스, 더선 등 언론사를 보유한 기업이다. 오픈 AI는 이를 위해 뉴욕코퍼레이션에 약 3400억원을 지불한다. 샘 올트먼 오픈AI 최고경영자(CEO)는 "뉴욕코퍼레이션과 협력하는 것은 저널리즘과 기술 모두에 있어 자랑스러운 순간"이라며 "전 세계 속보 보도를 선도한 뉴욕코퍼레이션의 고품질 보도에 대한 이용자 접근성을 향상시켜 기쁘다"고 언급했다.
저작권을 교묘하게 피하는 방안도 제기된다. MS는 한 논문을 통해 생성 AI에서 저작권이 있는 콘텐츠를 잊게 하는 방법을 제시했다. 우선 MS는 메타의 오픈소스 모델 '라마2 7B'에 유명 소설 '해리포터'를 집중적으로 학습시켰다. 그 후 해리포터 등장인물과 스토리 등을 완전히 학습한 라마에 해리포터 속 고유명사를 다른 언어로 교체하는 것이다. 이를테면 '호그와트'를 신비한 마법학교로, 주인공 '헤르미온느'를 제시카로 변경한다. 이렇게 되면 '헤르미온느가 호그와트에서 오랜 기간 수련해 능숙한 마법사가 되었다'는 책 속 문장을 라마2는 '제시카가 신비한 마법학교에서 오랜 기간 수련해 능숙한 마법사가 되었다'로 인식하게 된다.
최종적으로 '미세 조정(파인튜닝)'을 통해 신비한 마법학교, 제시카 등 대체어를 지속적으로 사용하게 한다. 이를 통해 모델은 점차 해리포터 고유명사에 대한 반응을 줄이고 새로운 반응을 보이게 된다. MS는 이 같은 실험을 수행한 결과 라마2에서 해리포터 내용을 상당 부분 지우는 데 성공했다고 말했다.
다만 이러한 방안이 현실적으로 모든 분야에 통용되긴 어려울 것으로 보인다. 해리포터처럼 고유명사이면서 그 뜻이 명확하면 가능하다. 그러나 동음이의어거나 중의적 의미를 가진 단어라면 문제가 된다. 가령 '너는 눈이 아름답구나'란 문장에서 '눈'을 '입'으로 바꾼다면 '하늘에서 눈이 내려요'를 하늘에서 입이 내려요'라고 표현하게 된다.
합성데이터 시장 규모 연평균 31%성장···거짓정보 확대·모델붕괴 우려
합성 데이터를 활용하는 것도 대안으로 제시된다. 합성 데이터란 AI가 만들어낸 인공 데이터를 의미한다. 사람이 만들어내는 데이터가 양적으로 한계가 있는 만큼 AI를 통해 직접 학습 데이터를 만들어내 그 한계를 돌파하겠다는 것이다. △무제한 데이터 확보 △저렴한 비용 △개인정보 문제 해결 등 다양한 이점을 가지는 것으로 보인다. 개인정보가 민감해 데이터 확보가 어려운 의료·금융·법률 등 산업에서 요긴하게 사용될 수 있다는 분석이다.
이렇다 보니 합성 데이터 시장 또한 각광을 받고 있다. 글로벌시장조사기관 포천 비즈니스 인사이트에 따르면 2023년 합성 데이터 시장 규모는 약 4839억원으로 평가된다. 연평균 31.1% 성장해 2030년에 이르러선 시장 규모가 3조2810억원에 육박할 것으로 예상된다.
그러나 합성 데이터를 학습 데이터로 활용하는 방법도 한계가 명확하다. AI가 잘못된 내용을 학습할 수 있다는 점이다. AI는 언제든지 '환각(할루시네이션)' 현상을 보일 수 있다. 환각 현상이란 거짓된 내용을 마치 진실 정보로 처리하는 것이다. AI가 거짓 정보를 반복적으로 학습한다면 잘못된 정보가 무한히 확대 재생산될 가능성이 있다.
'모델 붕괴' 현상도 우려된다. 합성 데이터를 학습한다는 것은 마치 투입(인풋)과 산출(아웃풋)이 무한 반복되는 뫼비우스띠와 같다. AI가 생성한 데이터를 AI가 다시 학습하고 이를 통해 만들어낸 데이터를 다시 한번 AI가 학습하는 꼴이다. 이러한 상황이 반복된다면 AI가 양질의 데이터를 학습할 때 학습 성능이 갑작스레 떨어질 수 있다. 합성 데이터에 오염돼 AI의 질적 성장이 제한될 거란 의미다.