한글의 자음과 모음 24자를 조합해 만들 수 있는 기본 음절의 수다. 알파벳 26개로 구성된 영어보다 훨씬 더 많은 글자를 만들 수 있다. 그만큼 유연하고 활용성이 높다. 실제로 훈민정음해례 서문에 “한글로 바람소리와 학의 울음소리, 개 짖는 소리까지 표현할 수 있다”고 적혀있다.
언어는 그 국가와 민족의 고유한 정체성과 문화적 배경 등을 담고 있다. 그런 의미에서 한글은 한국인을 가장 잘 담아낸 언어적 자산이다. 특히 우리나라 언어만의 예사말, 높임말은 세계에서 가장 우수하다는 구글 번역기도 담아내지 못한다. 국내 대표 IT 기업 네이버가 한글을 통한 ‘자연어 처리(컴퓨터가 인간의 언어를 이해하는 것)’ 연구에 직접 나선 것은 이같은 맥락과 연관된다.
구글과 같은 글로벌 기업은 인공지능(AI) 기술 수준이 뛰어나지만, 한글의 정체성을 담으려는 노력과 의지는 국내 기업보다 부족할 수밖에 없다. 개발자가 사용하는 모국어를 바라보는 시선과 애착 정도의 차이가 명확하기 때문이다. 네이버가 직접 한국어를 기반으로 한 AI 번역 솔루션 ‘파파고’를 선보인 이유다.
AI 번역에 활용되는 기술은 ‘통계 기반의 기계 번역(Statistical Machine Translation, 이하 SMT)’과 ‘인공 신경망 기반의 기계 번역(Neural Machine Translation, 이하 NMT)’ 두 가지 방식이 있다. SMT는 언어를 단어나 구 단위로 구분해 의미가 일치하는 다른 언어와 매칭하는 번역이다. 쉽게 말해 ‘그’를 ‘he’나 ‘the’ 등으로 구분하고 확률값이 가장 높은 것을 선택하는 식이다. 그러나 SMT는 단어와 구 단위로 번역하기 때문에, 여러 문장을 한꺼번에 번역하면 매끄럽게 연결되지 않는다는 단점이 있다.
NMT 방식은 문장의 전체 정보를 입력하는 방식이다. 단어의 의미와 순서, 문장 구조, 단어 간의 관계 등 번역에 필요한 모든 정보가 담겨 SMT 방식보다 정확하고 맥락에 맞는 번역이 가능하다. 다만 가격이 높은 GPU 서버가 필요하고 번역 속도도 SMT보다 느리다는 단점이 있다.
파파고는 이 두 가지 방식을 모두 활용한다. 글자 입력 중에는 SMT 방식을, 일정 시간 추가 입력이 없을 때 NMT로 번역을 제공한다. 번역 속도가 느리고 값비싼 서버가 필요하다는 단점을 SMT-NMT 교차 방식으로 해결한 것이다.
네이버는 서비스 측면에서도 다양한 시도에 나서고 있다. 파파고 앱 이용자의 31%가 외국어 공부에 파파고를 활용한다는 점에 주목했다. 애초에 네이버의 타겟층이었던 ‘해외여행에 사용한다’는 응답자는 29%로, 2위였다. 이에 네이버 사전과 연동해 번역과 동시에 단어의 의미를 확인할 수 있는 링크를 제공했다. 발음을 읽어주는 속도를 이용자가 직접 조절할 수 있게 했고, 반복 듣기 기능도 담았다. 네이버 앱에서 모르는 단어가 나올 때 바로 파파고를 호출할 수 있는 옵션도 추가했다.
그럼에도 네이버는 AI 번역 개발의 어려움을 호소한다. 영어 기반의 AI 번역 대비 연구자와 연구 결과, 데이터량에서 크게 뒤처져 있기 때문이다. 미국과 유럽 국가의 언어는 알파벳 기반으로 만들어져 영어-프랑스어, 영어-핀란드어 등의 번역 연구가 매우 활발하다. 그러나 아시아권의 언어는 독자적인 서체와 문법을 갖추고 있어 공통된 연구를 하기에 한계가 있다.
박은정 네이버 파파고 테크리더는 해외 언어 산업 전문매체 슬레이터(Slator)와의 최근 인터뷰에서 “아시아 언어 사이의 병렬 데이터가 매우 부족하다”며 “연구에 사용할 수 있는, 저작권 없는 공개 데이터가 많이 필요하다”고 말했다.