초거대 AI는 이름 그대로 방대한 데이터와 컴퓨팅 인프라를 이용하는 AI다. 미국 오픈AI가 지난해 자연어 처리 AI 모델 GPT-3를 선보인 이후, 세계적으로 초거대 AI 연구에 집중하고 있다. 이미 구글, 페이스북 마이크로소프트 등 주요 인공지능 기업은 초거대 AI 연구를 본격화하고 있고, 국내에서도 네이버 등 빅테크 기업을 중심으로 연구가 활발하다.
하정우 네이버 AI 연구소장은 "GPT-3는 기존 AI보다 천 배 이상 많은 데이터로 학습했다. 오픈AI가 발표한 GPT-3 관련 논문에서는 모델과 데이터 크기에 따라 기존 AI로는 극복할 수 없는 차이가 존재한다고 설명했다. 크기에 제한을 두지 않는다면 양쪽 다 커질수록 더 좋은 성능을 낼 수 있다는 의미다. 이런 이유에서 많은 글로벌 기업이 초거대 AI에 투자하고 있다. AI의 정확도를 넘어 기존에는 불가능한 것들을 현실화할 수 있다는 데 의미가 있다"고 말했다.
네이버가 내놓은 하이퍼클로바(HyperCLOVA)는 세계에서 우리말에 대한 이해도가 가장 높은 초거대 AI다. 자연어 처리에 특화된 GPT-3의 경우 한국어 데이터 비율이 0.016%에 불과하다. 반면, 하이퍼클로바는 97% 이상이 한국어 데이터로 구성돼 있다. 전체 데이터 학습 규모 역시 GPT-3보다 조금 더 많다. 네이버의 표현을 빌리자면 50년 분량의 뉴스와 맞먹는 수준이다.
하이퍼클로바는 코딩이 필요 없는 인공지능 활용을 지향한다. 네이버는 별도의 개발자 없이도 사용자가 인공지능을 직접 활용할 수 있도록 UI와 UX를 간소화한 '하이퍼클로바 스튜디오'를 제공한다. 여기에 몇 가지 예제를 입력하면 사용자가 요구한 형태의 데이터를 가공해 추출한다. 기존 AI 서비스 구축을 위해서는 사용자 분석, 데이터 구축, 모델 생성, 테스트와 운영, 피드백 등의 과정을 거친다. 하이퍼클로바 스튜디오는 여기서 구축, 생성, 운영 과정을 하나로 통합해 AI 전문가 없이도 빠른 서비스 기획을 지원한다. 향후 서비스 방식을 확정하면, AI 전문가와 협업해 서비스를 고도화하면 된다.
하정우 소장은 "초거대 AI에도 아직 남은 숙제는 많다. 맞춤법이 정확하지만, 글 구성이 틀린 경우도 있다. 데이터 편향성이 모델 편향성으로 이어지는 문제도 존재한다. 이러한 거대 연구를 기업 혼자서 하기는 쉽지 않다"며, "네이버는 서울대학교, 한국과학기술원 등과 협력해 연구센터를 만들고 새로운 산학협력 방식을 진행한다. 네이버랩스 연구진이 직접 겸임교수로 활동하며 문제를 찾고, 이를 해결하는 방식으로 협력한다. 이러한 산학협력 생태계를 통해 미국, 중국 등 AI 선진국과 어깨를 나란히 하는 리더십을 만들어나갈 것"이라고 말했다.