ETRI, 스페인어 대화체 언어음성 DB 배포

2014-03-03 09:27

ETRI 자동통역연구실 이영직 책임연구원이 원내 보관되어 있는 음성DB 관련자료를 소개하고 있다

아주경제 이한선 기자 = 한국전자통신연구원(ETRI)은 미래창조과학부와 한국정보화진흥원의 국가DB사업 지원을 통해 지난 2011년부터 구축해 온 스마트 모바일용 다국어 언어음성DB 중 스페인어 DB 20만 문장을 일반에 유료 배포한다고 3일 밝혔다.

ETRI가 이번에 배포하는 DB는 스페인어 대화체 음성DB, 한국어-스페인어 대화체 대역문장DB 등 언어음성DB다.

DB는 여행이나 일상생활에서 말하는 대화체 문장으로 이뤄졌고 동원된 음성DB는 700명분에 달한다.

자동통역의 정확성을 높이기 위해서는 구어체 DB가 반드시 필요하다.

스페인어 구어체 DB는 ETRI가 국내 최초로 배포하는 것으로 다국어 음성인식 및 자동번역 기술, 영어교육 개발 등에 널리 활용될 전망이다.

이번 ETRI가 공개하는 DB는 국가DB사업에서 요구하는 99.9%의 품질 수준에 합격한 대규모의 언어음성 DB다.

이 DB를 활용할 경우 언어음성기술의 완성도를 보다 더 높일 수 있고 신규시장 창출 및 국제경쟁력 강화에 기여할 것으로 예상된다.

외국어의 경우, 어떤 음성언어 DB가 필요한지에 대한 판단과 설계 등 필요한 다국어DB 솔루션이 중요하다.

국내 업체와 애플, 구글 등 세계적 기업 간에는 스마트폰, 스마트카, 스마트TV 등 스마트 모바일 인터페이스 분야의 경쟁이 치열한 가운데 국내 스마트폰의 번역기들은 한국어, 중국어, 프랑스어, 독일어, 이탈리아어, 일본어, 포르투갈어, 스페인어를 번역해주는 기능을 갖추고 있다.

국내 기술로 자체개발한 DB를 이용키도 하지만 국내 DB가 없을 경우 외국에서 개발한 음성인식 및 번역엔진을 도입, 탑재한다.

이 분야의 기술 자립을 위해서는 다국어 언어음성DB 구축이 시급한 상황이다.

언어음성DB의 구축에는 철저한 품질 관리가 따라야해 가격이 비싸다.

유럽언어자원협회(ELRA) 등 해외로부터 일부 외국어 DB 구입이 가능하지만 300~500명이 발화한 음성DB의 경우 1억~2억원 정도의 비용이 든다.

정부출연연구원이 직접 나서 DB를 보급하면서 향후 스마트 인터페이스 분야에서 외국산 제품의 시장점유율을 줄이는 데 큰 역할을 할 것으로 기대된다.

ETRI는 산업계의 요구에 부응해 지난 2007년부터 한·영·일·중 등 다국어 언어음성DB를 구축·배포해 왔고 지난해에는 스페인어를 추가해다. 올해는 프랑스어를 추가 구축할 예정이다.

그동안 ETRI가 배포한 DB업체로는 삼성전자, LG전자, KT, NHN, 다음, 보이스웨어, 쓰리소프트, 트란소노, 인피니티텔레콤, 디오텍, 시리우스소프트, CSLI, 솔트룩스 등이 있다.

ETRI는 이번 스페인어 DB를 배포하면서 기존 중국어 대화체 음성DB, 일본어 대화체 음성DB 등을 업데이트해 각각 400명분과 300명분 음성DB도 추가 보강했다.

ETRI는 올해 2월 현재, 국내 54개 기관에 208개 DB를 배포, 360억원에 해당하는 비용 절감 성과를 얻었다.

이번에 배포하는 총 4종의 DB를 국내 10개 기관에 배포할 경우 최소 60억원의 수입대체효과가 있다고 설명했다.

향후 ETRI는 국가DB사업을 통해 오는 2017년까지 프랑스어 이외에도 독일어, 러시아어, 동남아어로까지 확장해 DB를 보급할 계획이다.

이번 언어음성 DB와 관련 관심있는 업체는 ETRI 자동통역연구실로 문의하면 된다.(☎ 042-860-6169)