[네이버 테크인사이드] ㊼ "AI야 사람이야"... 진화하는 AI 더빙 기술

2020-08-17 12:58
'클로바더빙' 매장, 상품 소개하는 수단으로 활용
총 5개 국어 지원해 외국인 타기팅 가능
올해까지 무료로 이용 가능... 최근 가입 기업, 단체 10만개 돌파

#사례. 서울장애인종합복지관은 최근 복지관 홍보 영상을 제작했다. 건물별, 층별 공간을 소개하는 영상으로, 어린아이의 목소리를 입혀 친근함을 더했다. 이 목소리는 실제 아이의 목소리가 아닌 네이버의 인공지능(AI) 기술을 통해 제작된 내레이션이다. 문장만 입력하면 ‘AI 보이스’를 손쉽게 제작할 수 있어, 많은 업체가 자신의 매장이나 상품, 서비스를 소개하는 영상에 이 기술을 활용하고 있다. 네이버 관계자는 “키보드 타이핑만으로 동영상에 AI 보이스를 더빙할 수 있다”고 강조했다.

17일 IT업계에 따르면 네이버의 ‘클로바더빙’이 기업·단체로부터 매장, 상품 소개 수단으로 활용되고 있다. 클로바더빙은 네이버의 AI 기술이 문장을 실제 사람의 음성으로 바꿔 영상에 입혀주는 서비스로, 지난 2월에 출시됐다. 아나운서나 전문 성우를 섭외하지 않아도 누구나 동영상에 더빙을 입힐 수 있다. 고가의 녹음 장비와 스튜디오를 꾸리지 않아도 된다는 장점도 있다. 영어와 일본어, 중국어, 스페인어 더빙 서비스도 제공해 외국인을 위한 영상도 제작할 수 있다. 남성과 여성, 아이 등 총 28종의 목소리를 자유롭게 활용할 수 있다.

클로바더빙은 네이버의 ‘음성 합성 기술(TTS, Text to Speech)’을 통해 개발된 서비스다. 네이버는 40분간의 음성 녹음만으로 AI가 자연스러운 합성음을 제작하는 ‘NES(Natural End–to-end Speech Synthesis)’ 기술을 적용했다고 설명했다.

 

네이버 클로바더빙 이미지[사진=네이버 제공]


네이버는 코로나 팬데믹(세계적 대유행)으로 동영상과 같은 비대면 정보성 콘텐츠 제작이 늘어나자, 올해까지 이 서비스를 무료로 제공하기로 했다. 지난 6월 기준, 클로바더빙에 가입한 기업·단체 수가 10만개를 돌파했다.

네이버의 음성 합성 기술은 ‘네이버 뉴스’에도 적용되고 있다. 네이버 뉴스 내 기사 페이지에서 ‘본문듣기’를 누르면 네이버의 AI가 기사 내용을 소리 내어 읽어준다. 네이버는 최근 여기에 오상진 아나운서의 목소리를 입혔다. 특정 목소리의 녹음으로 모든 문장의 합성음을 만들 수 있는 ‘HDTS(High-quality DNN Text-to-Speech)’ 기술을 적용해, 실제 오상진 아나운서의 발음, 보이스톤, 읽기의 높낮이 등을 구현했다.

네이버 관계자는 “AI 보이스를 제작하려면 사람이 직접 성우의 음성 데이터를 하나씩 듣고 음성의 경계와 발음열을 태깅하고, 음소단위로 분류하는 작업을 해야 되기 때문에 많은 시간과 비용이 발생한다”며 “네이버의 AI 보이스는 이 작업을 기계가 자동으로 수행하는 기술이 적용돼 시간과 비용을 대폭 줄였고, 사람이 직접 작업할 때보다 정확도도 높였다”고 말했다.

네이버는 뉴스 서비스 외에도 통번역앱 ‘파파고’, 오디오 플랫폼 ‘오디오클립’, AI가 식당 예약 전화를 받는 ‘AI콜’에 AI 보이스 기술이 들어갔다. 네이버는 이용자들의 피드백을 받아 향후 네이버의 모든 서비스에 이 기술을 적용한다는 계획이다.