"영어 공부 안해도 되는 날 오나"... 국내외 IT 기업, AI 번역 기술개발 경쟁 치열

2020-11-07 09:13
구글 MS 페이스북, 90개 이상 언어 번역하는 AI 모델 공개
삼성SDS, 네이버 AI 번역 모델, 글로벌 경진대회서 수상

국내외 IT 기업들이 인공지능(AI) 기반의 번역 기술을 활용한 서비스를 제공하기 위한 기술 개발 경쟁에 나서고 있다.

7일 IITP ICT브리프에 따르면 구글과 마이크로소프트, 페이스북 등 글로벌 IT 기업들은 다국어 번역 모델을 공개했다.

구글은 지난 10월 101개의 언어를 번역하는 다국어 AI 모델 mT5를 깃허브에 오픈 소스로 공개했다. mT5는 중복 문장과 데이터를 제거하고 비속어도 거르는 것이 특징이다. IITP는 mT5가 다국어 모델 성능 측정에서 다른 모델보다 높은 점수를 기록했다고 설명했다.

구글은 mT5 개발을 위해 인터넷 웹사이트에서 750GB 분량의 영어 텍스트 데이터를 활용했다.

마이크로소프트도 지난달 94개 언어를 번역할 수 있는 AI 모델 'T-ULRv2'를 공개했고, 페이스북도 지난 10월 100개의 언어를 번역하는 AI 언어 모델 M2M-100을 깃허브에 공개했다. 페이스북은 뉴스피드에 업로드되는 200억건의 번역을 AI 모델에 학습시키고 100개 언어로 구성된 75억개의 데이터셋을 구축하는 과정을 거쳐 M2M-100을 개발했다. 이는 영어를 사용하지 않고 각 언어를 직접 비교해 번역하는 것이 특징이다.

국내 IT 기업들도 경쟁에 가세하고 있다. 삼성SDS는 최근 글로벌 AI 독해 경진대회 '핫팟QA'와 한국어 독해 경진대회 '코쿼드 1.0', '코쿼드 2.0'에서 모두 1위를 차지했다. 핫팟QA는 미국 카네기멜론, 스탠포드대, 캐나다 몬트리올대가 만든 데이터셋 기반의 AI 독해 경진대회다.

삼성전자는 삼성리서치 산하 폴란드연구소와 베이징연구소는 구술 언어 번역 국제워크숍에서 1위를 차지했다. 폴란드연구소는 이 워크숍에서 영어로 된 테드 강연을 독일어로 번역하는 과제를 수행했고, '오디오-텍스트 번역' 부문 1위를 차지했다. 베이징 연구소는 일본어와 중국어 간 번역을 평가하는 부문에서 1위를 기록했다.

네이버는 AI 번역 평가 모델 '팟퀘스트'를 통해 국제 기계번역 대회 'WMT20의 문서 품질 평가에서 1위를 차지했다. 팟퀘스트는 번역 품질을 평가하고 번역 모델의 성능을 높이는 평가 모델로, AI데이터를 생성하고 이를 모델학습에 적용하는 과정을 자동화해 번역 품질 평가 정확도를 향상한 것이 특징이다.

IITP는 "AI 번역기술의 본격적인 발전으로 글로벌 IT 기업의 기술 개발이 활발하다"며 "국내 기업도 AI 번역 모델을 앞세워 국내외 각종 경진대회에서 수상해 경쟁력을 입증하고 있다. 실생활에서 이용 가능한 내실 있는 서비스 준비가 필요하다"고 제언했다.
 

[사진=게티이미지뱅크]