"한국어는 한국 AI" 네이버 '하이퍼클로바X', 글로벌 최고 수준 넘었다

2024-02-27 15:21
KMMLU 평가서 한국 특화지식 GPT-4 앞서

최수연 네이버 대표가 지난해 8월 서울 강남구 그랜드 인터컨티넨탈 서울 파르나스에서 열린 '팀 네이버 컨퍼런스 단(DAN) 2023'에서 '하이퍼클로바X' 관련 발표를 하고 있다 [사진=네이버]

네이버가 개발한 초거대언어모델(LLM) 인공지능(AI)인 '하이퍼클로바X'가 국내 성능 평가에서 글로벌 빅테크 업체들을 앞질렀다. 한국에서 사용하기에는 하이퍼클로바X가 가장 유용할 수 있다는 뜻이다. 네이버는 먼저 국내에서 AI 관련 최상위 입지를 다진 뒤 글로벌 진출에 더욱 속도를 내겠다는 계획이다.

네이버클라우드는 하이퍼클로바X가 한국판 AI 성능평가체계인 KMMLU에서 오픈AI와 구글의 생성형 AI보다 높은 점수를 기록했다고 27일 밝혔다.
 
KMMLU는 국내의 대표적인 개방형 언어모델 연구팀인 '해례(HAE-RAE)'가 이끈 AI 성능 평가지표 구축 프로젝트다. 인문학과 사회학, 과학·기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성돼 있다. 수학적 추론 능력과 함께 세계적으로 공통 적용할 수 있는 광범위한 지식을 묻는 문항 약 80%, 한반도 지리·국내법 등 한국 특화 문제 해결 능력을 평가하는 문항 약 20%로 각각 이뤄졌다.
 
한국어 원본의 시험 문제들로 구성돼, AI의 한국어 이해 역량을 정확하게 평가할 수 있다는 장점이 있다. 그간 평가지표로 흔히 사용됐던 MMLU는 한국어로 번역하면 제대로 된 능력을 파악하기에는 한계가 있었다. 문항의 부정확한 번역과 여러 문제에 내재된 영어권 국가만의 문화적 맥락 등이 문제가 됐다.
 
KMMLU 연구 논문에 따르면 하이퍼클로바X는 오픈AI의 GPT 3.5 터보와 구글의 제미나이 프로보다 높은 점수를 기록했다. 일반 지식과 한국 특화 지식을 종합한 전반적인 성능이 글로벌 빅테크의 AI와 경쟁할 수 있는 수준까지 올라섰다는 뜻이다. 한국 특화 지식 기준으로는 오픈AI의 GPT 4보다도 높은 점수를 기록했다. 교육·법률 등 현지 정보의 중요성이 큰 산업 분야에서는 하이퍼클로바X가 가장 유용할 수 있음을 방증하는 결과다.
 
네이버클라우드는 향후 하이퍼클로바X를 보안과 성능을 모두 갖춘 최상위 AI 솔루션으로 발전시켜 나가겠다는 계획이다. 지난해 10월에는 고객사가 폐쇄된 사내망에서 하이퍼클로바X로 데이터 유출을 방지할 수 있는 '뉴로클라우드 포 하이퍼클로바X'를 출시했다. 앞으로도 다양한 기업용 솔루션을 선보일 계획이다.

자국어 중심 AI에 대한 글로벌 수요가 관찰되는 만큼, 한국에서 확인한 AI 경쟁력을 바탕으로 향후 글로벌 시장 진출에도 속도를 낼 계획이다.
 
한편, 네이버클라우드는 2021년 30여 개 기업과 대학의 자연어처리 전문가들과 함께 한국어 자연어 이해 벤치마크인 '클루'를 구축했다. 작년에는 사회과학·법학 등 여러 학문 분야와 협력해 국내 초대규모 언어모델의 신뢰성 향상을 위한 한국어 데이터세트를 공개하기도 했다.