[네이버 테크인사이드] ② “한국인 정체성 담은 ‘한글’, 토종 AI 파파고가 가장 잘 번역하죠”

2019-06-06 19:03
글로벌 AI 번역이 한글 우수성, 한국인 정체성 담는데 한계
100점 만점에 65점 파파고, 출시 2년 만에 월간 활성 사용자 수 1000만명 돌파
SMT NMT 교차 방식 적용으로 속도+비용 절감 두 마리 토끼 잡아

‘1만1172개’

한글의 자음과 모음 24자를 조합해 만들 수 있는 기본 음절의 수다. 알파벳 26개로 구성된 영어보다 훨씬 더 많은 글자를 만들 수 있다. 그만큼 유연하고 활용성이 높다. 실제로 훈민정음해례 서문에 “한글로 바람소리와 학의 울음소리, 개 짖는 소리까지 표현할 수 있다”고 적혀있다.

언어는 그 국가와 민족의 고유한 정체성과 문화적 배경 등을 담고 있다. 그런 의미에서 한글은 한국인을 가장 잘 담아낸 언어적 자산이다. 특히 우리나라 언어만의 예사말, 높임말은 세계에서 가장 우수하다는 구글 번역기도 담아내지 못한다. 국내 대표 IT 기업 네이버가 한글을 통한 ‘자연어 처리(컴퓨터가 인간의 언어를 이해하는 것)’ 연구에 직접 나선 것은 이같은 맥락과 연관된다.

구글과 같은 글로벌 기업은 인공지능(AI) 기술 수준이 뛰어나지만, 한글의 정체성을 담으려는 노력과 의지는 국내 기업보다 부족할 수밖에 없다. 개발자가 사용하는 모국어를 바라보는 시선과 애착 정도의 차이가 명확하기 때문이다. 네이버가 직접 한국어를 기반으로 한 AI 번역 솔루션 ‘파파고’를 선보인 이유다.
 

[그래픽=임이슬 기자]

파파고는 네이버의 AI 번역 서비스로, 2017년 7월부터 정식 서비스하기 시작했다. 당시 국내 IT 기업 중 최초로 번역 서비스를 선봬 주목을 받았다. 서비스 초기에는 어설픈 번역으로 “그냥 직접 해석하는 편이 낫다”는 평가를 받았다. 실제로 네이버 내부에서도 100점 만점에 65점을 줄 정도였다. 그러나 지속적인 기술 고도화로 파파고는 서비스 출시 2년 만에 파파고 앱은 언어생활에 꼭 필요한 서비스로 자리를 잡았다. 지난 4월 앱 다운로드 수가 200만건을 돌파했고, 월간 활성 사용자 수(MAU)는 1000만명을 넘어섰다. 번역 지원 언어는 총 13개까지 늘어났다. 한국어·영어·일본어·중국어 등 주요 4개 언어 간 번역 품질은 경쟁사 대비 평균 27% 높다고 네이버는 설명했다.

AI 번역에 활용되는 기술은 ‘통계 기반의 기계 번역(Statistical Machine Translation, 이하 SMT)’과 ‘인공 신경망 기반의 기계 번역(Neural Machine Translation, 이하 NMT)’ 두 가지 방식이 있다. SMT는 언어를 단어나 구 단위로 구분해 의미가 일치하는 다른 언어와 매칭하는 번역이다. 쉽게 말해 ‘그’를 ‘he’나 ‘the’ 등으로 구분하고 확률값이 가장 높은 것을 선택하는 식이다. 그러나 SMT는 단어와 구 단위로 번역하기 때문에, 여러 문장을 한꺼번에 번역하면 매끄럽게 연결되지 않는다는 단점이 있다.

NMT 방식은 문장의 전체 정보를 입력하는 방식이다. 단어의 의미와 순서, 문장 구조, 단어 간의 관계 등 번역에 필요한 모든 정보가 담겨 SMT 방식보다 정확하고 맥락에 맞는 번역이 가능하다. 다만 가격이 높은 GPU 서버가 필요하고 번역 속도도 SMT보다 느리다는 단점이 있다.

파파고는 이 두 가지 방식을 모두 활용한다. 글자 입력 중에는 SMT 방식을, 일정 시간 추가 입력이 없을 때 NMT로 번역을 제공한다. 번역 속도가 느리고 값비싼 서버가 필요하다는 단점을 SMT-NMT 교차 방식으로 해결한 것이다.

네이버는 서비스 측면에서도 다양한 시도에 나서고 있다. 파파고 앱 이용자의 31%가 외국어 공부에 파파고를 활용한다는 점에 주목했다. 애초에 네이버의 타겟층이었던 ‘해외여행에 사용한다’는 응답자는 29%로, 2위였다. 이에 네이버 사전과 연동해 번역과 동시에 단어의 의미를 확인할 수 있는 링크를 제공했다. 발음을 읽어주는 속도를 이용자가 직접 조절할 수 있게 했고, 반복 듣기 기능도 담았다. 네이버 앱에서 모르는 단어가 나올 때 바로 파파고를 호출할 수 있는 옵션도 추가했다.

그럼에도 네이버는 AI 번역 개발의 어려움을 호소한다. 영어 기반의 AI 번역 대비 연구자와 연구 결과, 데이터량에서 크게 뒤처져 있기 때문이다. 미국과 유럽 국가의 언어는 알파벳 기반으로 만들어져 영어-프랑스어, 영어-핀란드어 등의 번역 연구가 매우 활발하다. 그러나 아시아권의 언어는 독자적인 서체와 문법을 갖추고 있어 공통된 연구를 하기에 한계가 있다.

박은정 네이버 파파고 테크리더는 해외 언어 산업 전문매체 슬레이터(Slator)와의 최근 인터뷰에서 “아시아 언어 사이의 병렬 데이터가 매우 부족하다”며 “연구에 사용할 수 있는, 저작권 없는 공개 데이터가 많이 필요하다”고 말했다.
 

[파파고 로고]