초거대 AI 개발사 '데이터 무임승차'…무료 서비스 기업들 폭발
2023-07-06 17:40
초거대 AI 개발 과정서 온라인으로 데이터 수집
데이터 보유 무료 서비스 운영사와 갈등 빚기도
레딧·트위터 이어 '맟춤법 검사기' 이용 제한 조치
데이터 보유 무료 서비스 운영사와 갈등 빚기도
레딧·트위터 이어 '맟춤법 검사기' 이용 제한 조치
'챗GPT'로 촉발된 초거대 인공지능(AI) 열풍이 뜨거워지면서 데이터 수집을 놓고 곳곳에서 갈등이 격화되고 있다. 개발사가 초거대 AI의 근간이 되는 데이터를 최대한 저렴하게 많이 확보하기 위해 무료 온라인 서비스의 데이터를 무단 수집하기도 하는데, 서비스 제공자가 이러한 행위에 문제를 제기하거나 보호 장치를 거는 사례가 나오고 있다.
6일 업계에 따르면 부산대학교 한국어 맞춤법 검사기를 운영하는 나라인포테크는 최근 공지를 통해 "특정 IP들에서 비정상적인 이용 패턴을 확인했다"라며 "거대 언어 모델의 학습을 위한 목적이 아닌가 의심된다"고 언급했다.
회사 측은 "특정 IP에서 한달간 500만회 이상 검사기를 사용한 것으로 파악됐으며 이에 따라 감당하기 어려운 비용이 청구됐다"라며 "이러한 데이터 처리가 계속된다면 서비스 속도가 느려지고, 클라우드 서비스 유지 비용이 예상보다 늘어나 현재와 같이 웹 검사기 서비스를 무료로 제공하기가 불가능해진다"고 호소했다. 이에 회사 측은 대규모 데이터 수집 목적의 이용을 제한하겠다고 밝혔다. 또 상업적 용도나 데이터 수집 등의 용도로 활용할 때는 회사에 연락해야 한다고 못박았다.
트위터는 지난 2월 비슷한 이유로 일찌감치 API 유료화를 선언했다. 이어 지난달 30일에는 웹 검색을 통한 게시물 접근을 막았고, 지난 1일에는 일론 머스크 트위터 회장이 직접 트위터 이용자들이 하루에 읽을 수 있는 게시물을 제한한다고 발표해 논란을 빚기도 했다. 머스크의 이 같은 조치들은 모두 초거대 AI의 트위터 데이터 수집에 장벽을 세우려는 수단으로 해석된다. 머스크는 올해 AI 기업들이 자사의 방대한 데이터를 무분별하게 수집하고 있다며 불만을 제기해 왔다.
반면 초거대 AI를 개발하는 기업들은 아랑곳하지 않고 이렇게 수집한 데이터를 더욱 폭넓게 자사 서비스에 활용하려는 움직임을 보이고 있다. 구글은 지난 1일 개인정보보호 정책 개정을 통해 "공개적으로 제공되는 정보를 수집해 구글 번역, 바드, 클라우드 AI 기능 등 AI 모델을 학습한다"고 공지했다. 이전에는 수집한 데이터 활용 분야를 '언어 모델'로 명시하고 활용 예시로 '구글 번역'만을 언급했다. 무료 온라인 서비스를 제공하는 쪽에서 이러한 데이터 수집 행위에 더 큰 불만을 품을 수 있다.