다음커뮤니케이션, 국내 최초 음성 합성 엔진 ‘뉴톤 톡’ API 공개

2014-06-26 11:21

[사진 제공= 다음커뮤니케이션]


아주경제 정광연 기자= 다음커뮤니케이션이 국내 최초로 음성 합성 API를 26일 공개했다. 자체 개발한 음성 합성 엔진 ‘뉴톤 톡(Newtone Talk)’의 API로 입력된 글자를 사람처럼 자연스럽게 읽어 주는 것이 특징이다.

지난 2월 공개한 음성 인식 엔진 ‘뉴톤(NewTone)’의 API에 음성 합성 기능이 더해짐으로써 입출력이 모두 가능한 음성 API를 무료로 이용할 수 있게 됐다. 뉴톤 톡은 2012년 말, 다음이 인수한 음성 인식 전문기업 ‘다이알로이드’의 기술을 바탕으로 제작됐다.

음성 합성이란 글자를 입력했을 때 이를 음성으로 변환해 들려주는 것으로 운율, 높낮이 등 사람의 발성을 그대로 재현해내는 것이 이 기술의 완성도를 가늠한다. 이를 위해 다음은 한국어 운율 모델을 자체 개발했으며 대용량·자동화 처리 기술에 의해 빠르게 모델을 학습할 수 있도록 했다.

뉴톤 톡은 한 번에 최대 30초의 음성을 합성할 수 있다. 입력된 글자를 분석해 음성으로 합성하기까지 0.1초면 된다. 문장을 입력하고 합성 요청을 하면 즉시 들을 수 있다. 뉴톤 톡에는 현재 남성과 여성 각 하나씩의 낭독 음색이 탑재돼 있고, 대화체나 밝은 낭독체 등 4개의 음색이 연내 추가될 예정이다.

다음 검색부문 이상호 부사장은 “개발자 누구나 음성 인식 및 합성 기술을 자유롭게 활용해 혁신적인 모바일 서비스를 만들 수 있도록 완성된 엔진을 API로 먼저 공개했고, 이런 시도가 장기적으로 음성 기술 영역 전반의 발전을 이끌 것이라 기대한다”고 밝혔다.

뉴톤과 뉴톤 톡은 안드로이드와 iOS 버전 모두를 지원한다. 다음 개발자 네트워크(http://dna.daum.net)에서 제휴 신청을 하면 발급받을 수 있으며 하루 1만 회까지 자유롭게 사용 가능하다. 이미 뉴톤 API를 발급받았다면 별도의 재신청 절차 없이 뉴톤 톡 기능까지 이용할 수 있다.