구글보다 우수... ETRI, 언어 능력 향상시킨 신규 AI 모델 '코버트' 공개
2019-06-11 16:02
구글의 한국어 언어모델보다 평균 4.5% 뛰어나... 한국어 AI 비서 등에 활용 기대
한국전자통신연구원(ETRI)이 최신 한국어 인공지능(AI) 언어모델을 공개했다. AI 비서, 지능형 검색 등 한국어를 활용한 AI 서비스 개발이 한층 빨라질 전망이다.
10일 ETRI는 최신 한국어 언어모델 ‘코버트(KorBERT)’를 홈페이지에 공개했다. 코버트는 두 종류로 나눠 공개됐다. 구글의 언어표현 방법에 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 ‘교착어’ 특성까지 반영한 언어모델이다.
AI 음성비서.[사진=게티이미지뱅크 제공]
코버트는 지난 3월 한컴오피스 지식검색 베타버전에 탑재돼 그 유용함을 검증받은 바 있다. 올해 하반기에는 코버트를 활용한 ‘법령분야 질의응답 API’를 공개하고, ‘유사 특허 지능형 분석 기술’도 선보일 계획이다.
언어를 AI에 학습시키려면 문장의 어절을 숫자로 바꿔야 한다. 이러한 변환을 위해 과거에는 주로 구글의 다국어 언어모델 ‘버트’(BERT)를 활용했다. 버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자를 단어로 인식한다. 지난해 11월 처음 공개된 버트는 언어처리 11개 분야에서 많은 성능 향상을 이뤄 주목을 받았다.
구글은 40여 만 건의 위키백과 문서 데이터를 활용해 한국어 언어모델을 개발했다. ETRI 연구진은 여기서 한 발 더 나아가 지난 10년동안 쌓인 신문기사와 백과사전 정보를 활용해 코버트를 개발했다. 총 23기가바이트(GB)에 달하는 분량이다.
ETRI에 따르면, 단순히 입력한 데이터 양만 늘려서는 언어모델 고도화에 한계가 있다. 때문에 연구진은 한국어의 최소 단위인 형태소까지 고려한 언어모델을 만들었다. 교착어라는 한국어의 특성을 최대한 반영했다는 설명이다.
연구진은 ▲전처리 과정에서 형태소를 분석한 언어모델 ▲한국어에 최적화된 학습 파라미터 ▲방대한 데이터 기반 등이 구글과 차별화된 코버트 만의 특징이라고 설명했다.
코버트는 AI 성능을 확인하는 5가지 지표에서 구글의 언어모델보다 평균 4.5% 우수한 성능을 보였다. 특히 단락 순위화(Passage Ranking) 부문에서는 7.4% 높은 수치를 기록했다.
코버트는 파이토치(PyTorch), 텐서플로(Tensorflow) 등 주요 AI·딥러닝(인공신경망) 프레임워크에서 이용할 수 있다. 관련 API는 공공 데이터 서비스 포털에서 찾을 수 있다.
ETRI 김현기 박사(엑소브레인 사업 총괄)는 "한국어에 최적화된 코버트를 활용해 한국어 AI 기술이 한층 고도화될 것으로 기대한다"고 말했다.
코버트는 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못하는 약점이 있다. 연구진은 향후 더 많은 단어를 한 번에 인식할 수 있는 새 언어모델을 선보일 계획이다.
ETRI는 2017년도부터 언어지능 기술 오픈 API 및 기계학습 데이터를 공개해왔다. 지금까지 1300만건 이상 활용됐다. 주료 산업체(42%), 대학교(34%) 소속 개발자와 개인(20%) 개발자들이 활용하고 있다.
이번 연구개발에 근간이 된 ‘엑소브레인 사업’은 2016년 EBS 장학퀴즈 우승, 기술이전 및 사업화 39건, 국내외 표준화 44건, 특허출원 70건 등의 성과를 낸 바 있다.