[네이버 테크인사이드] ㉙ 성우 대체하는 AI '클로바'

2020-03-01 13:32
문장 입력만으로 동영상 더빙... AI가 글자를 목소리로 변환
100시간 걸리던 음성합성, 40분으로 대폭 줄여
대중교통·백화점 내 안내방송, 오디오 콘텐츠 제작 등에 활용

네이버가 인공지능(AI) 기술을 활용해 문장 입력만으로 동영상에 더빙을 입힐 수 있는 서비스를 선보였다. 최대 100시간이 소요됐던 음성합성 작업을 40분으로 단축시켰다. 향후 이 기술이 고도화되면 성우를 대체할 수 있을 것이란 전망이 나온다. 

네이버는 최근 ‘클로바더빙’ 서비스를 선보였다. 이는 AI 클로바의 음성 합성 기술(TTS, Text to Speech)을 활용해 개발한 서비스다. 문장을 입력하면 AI가 합성음을 만들어 동영상과 같은 콘텐츠에 목소리를 입혀준다. 이를 활용하면 영상 콘텐츠에 넣을 오디오를 본인이 직접 녹음하지 않아도 된다.

현재 클로바더빙은 총 21종의 목소리를 제공한다. 남성과 여성, 아이, 기쁨과 슬픔 등의 옵션이 있다. 실제 사람이 말하는 것과 같은 자연스러움이 특징이다. 이용자들은 자신의 동영상에 맞는 목소리를 선택하면 된다.

클로바더빙은 네이버의 ‘클로바 보이스’의 서비스 중 하나다. 클로바 보이스는 네이버의 TTS 기술을 가리킨다. 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 ‘NES(Natural End–to-end Speech Synthesis)’ 기술이 적용됐다.

NES는 약 400문장을 입력하는 것만으로 실제 사람의 음성에 가까운 AI 합성음을 만드는 기술이다. 기존 음성합성 기술이 사람의 목소리를 만드는 데 최대 100시간의 음성이 필요한 반면, NES는 단 40분 정도의 음성만으로도 자연스러운 합성음을 만들 수 있다.

 

배우 유인나가 클로바 보이스 기술을 통해 목소리를 녹음하는 장면[사진=네이버 제공]

네이버 관계자는 “기업들이 시간과 비용 면에서 효율적으로 음성 서비스를 개발할 수 있는 것이 가장 큰 장점”이라며 “향후 100문장, 한 문장만으로도 목소리를 만들 수 있는 합성기로 고도화할 것”이라고 말했다.

또한 특정 목소리의 녹음으로 모든 문장의 합성음을 만들 수 있는 ‘HDTS(High-quality DNN Text-to-Speech)’ 기술도 적용됐다. NES가 문장을 입력해 합성음을 만드는 기술이라면, HDTS는 음성을 통해 합성음을 만드는 기술이다. 네이버는 배우 유인나의 목소리를 HDTS 방식을 적용해 클로바가 탑재된 AI 스피커에 적용했다. 네이버는 단 4시간의 음성 녹음으로 다른 모든 문장을 합성음으로 재현할 수 있다고 강조했다.

클로바 보이스는 동영상에 더빙을 입히는 것뿐만 아니라 대중교통, 백화점 내 안내방송, 오디오 콘텐츠 제작, AI 전화예약 서비스 등에 활용할 수 있다. 클로바 보이스가 고도화되면 성우를 대체할 수 있을 것으로 전망된다.

클로바 보이스는 일반 개인들은 무료로 이용할 수 있으며, 기업과 단체들은 이용 횟수에 따라 비용을 지불해야 한다. 그러나 네이버는 코로나19 확산으로, 오는 5월까진 무료로 제공한다는 방침이다. 네이버는 향후 더 많은 형태의 목소리, 감정을 담은 합성음을 선보인다.

네이버 관계자는 “클로바 스마트 스피커, 네이버 뉴스, 네이버 지도, 파파고, 오디오클립 등 다양한 서비스에 클로바의 음성합성 기술을 활용하고 있다”며 “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나갈 것”이라고 전했다.
 

네이버 클로바 보이스 무료 사용 안내[사진=네이버 제공]