'챗GPT'로 촉발된 초거대 인공지능(AI) 열풍이 뜨거워지면서 데이터 수집을 놓고 곳곳에서 갈등이 격화되고 있다. 개발사가 초거대 AI의 근간이 되는 데이터를 최대한 저렴하게 많이 확보하기 위해 무료 온라인 서비스의 데이터를 무단 수집하기도 하는데, 서비스 제공자가 이러한 행위에 문제를 제기하거나 보호 장치를 거는 사례가 나오고 있다.
6일 업계에 따르면 부산대학교 한국어 맞춤법 검사기를 운영하는 나라인포테크는 최근 공지를 통해 "특정 IP들에서 비정상적인 이용 패턴을 확인했다"라며 "거대 언어 모델의 학습을 위한 목적이 아닌가 의심된다"고 언급했다.
초거대 AI 데이터 수집에 대한 '빗장 채우기'는 해외에서도 연이어 나타나고 있다. 대표적으로 미국 최대 커뮤니티인 레딧은 지난달 애플리케이션 프로그래밍 인터페이스(API)를 유료화하겠다고 발표했다. API에 1000회 접속할 때마다 운영자에게 24센트의 요금을 부과하는 식이다. 레딧이 API 유료화 이유로 내세운 것은 수익화였다. 초거대 AI가 언어모델 학습에 자사 데이터를 활용하는 조건으로 비용을 지급하라는 것이다.
트위터는 지난 2월 비슷한 이유로 일찌감치 API 유료화를 선언했다. 이어 지난달 30일에는 웹 검색을 통한 게시물 접근을 막았고, 지난 1일에는 일론 머스크 트위터 회장이 직접 트위터 이용자들이 하루에 읽을 수 있는 게시물을 제한한다고 발표해 논란을 빚기도 했다. 머스크의 이 같은 조치들은 모두 초거대 AI의 트위터 데이터 수집에 장벽을 세우려는 수단으로 해석된다. 머스크는 올해 AI 기업들이 자사의 방대한 데이터를 무분별하게 수집하고 있다며 불만을 제기해 왔다.
반면 초거대 AI를 개발하는 기업들은 아랑곳하지 않고 이렇게 수집한 데이터를 더욱 폭넓게 자사 서비스에 활용하려는 움직임을 보이고 있다. 구글은 지난 1일 개인정보보호 정책 개정을 통해 "공개적으로 제공되는 정보를 수집해 구글 번역, 바드, 클라우드 AI 기능 등 AI 모델을 학습한다"고 공지했다. 이전에는 수집한 데이터 활용 분야를 '언어 모델'로 명시하고 활용 예시로 '구글 번역'만을 언급했다. 무료 온라인 서비스를 제공하는 쪽에서 이러한 데이터 수집 행위에 더 큰 불만을 품을 수 있다.
한편 이 같은 문제는 웹툰 등 콘텐츠 업계로도 번졌다. 최근 네이버웹툰을 중심으로 이뤄졌던 웹툰 독자들의 'AI 웹툰 보이콧' 움직임이 대표적이다. 이들은 네이버웹툰 이용약관을 근거로 네이버웹툰에 올라간 작품들이 네이버의 AI 학습에 활용될 가능성이 있다고 주장했다. 해당 약관에서 네이버웹툰은 자사 서비스 내 게시물을 네이버웹툰 및 네이버 서비스를 위한 연구 목적으로 활용할 수 있다고 언급했다. 다만 네이버웹툰 측은 웹툰을 AI 학습에 활용한 적이 없고, 앞으로도 활용할 계획이 없다고 선을 그었다. 웹툰 공모전에 출품하는 작품을 대상으로는 아예 AI 활용 자체를 금지하기도 했다.