[테크인트렌드] 'AI 더빙' 전문 허드슨AI, '미래먹거리' 미디어 콘텐츠 시장 노린다

2024-03-12 06:00
  • 글자크기 설정

'생성 AI 기술' 접목해 배우 1명 목소리로 8개국어 구사

OTT·엔터 포함 콘텐츠 더빙 시장 2025년 10조원 예상

시장 급성장에 정부도 나서…K콘텐츠 해외 진출 지원

글로벌 온라인동영상서비스(OTT) 부상과 함께 로컬 콘텐츠의 현지화가 더욱 중요해지면서 전통적인 자막 제공을 넘어 더빙 제작 니즈가 확산하고 있다. 더빙 콘텐츠 제공 여부가 미디어 기업과 크리에이터의 경쟁 우위가 됐지만, 자막 대비 10배 이상 높은 제작 비용과 시간이 소요되면서 부담으로 작용해서다. 

생성 인공지능(AI) 더빙을 주력 사업으로 하는 스타트업 허드슨AI는 2025년 5조 달러(약 6600조원)를 육박하는 규모로 확대될 미디어 콘텐츠 제작 시장을 노린다. 음성 기술과 영상 AI 기술을 활용해 글로벌 진출을 꾀한다는 포부다. 
 
비용·시간은 절반 줄이고 퀄리티는 더 높게
허드슨AI 직원이 비디오 내 등장인물들의 입모양을 학습시키는 모습 사진허드슨AI
허드슨AI 직원이 비디오 내 등장인물들의 입 모양을 학습시키는 모습. [사진=허드슨AI]

허드슨AI는 영화·드라마 등 영상 미디어에 AI가 녹음한 음성을 입히는 스타트업이다. 음성·영상 AI 기술을 활용해 더빙에 들어가는 자원은 줄이고, 자연스러운 연기 음성과 입 모양까지 생성해 어떤 언어로든 자연스러운 더빙을 제공하는 것을 목표로 한다. 

설립 당시 허드슨AI가 가장 주목한 지점은 비용적인 측면이었다. 최근 더빙 콘텐츠 제공 여부가 미디어 기업과 크리에이터들의 경쟁 우위가 됐지만, 비용이 자막 대비 10배 이상 높아 부담스러운 부분이었다. 일례로 1시간 분량 영상에 성우 1명을 캐스팅해 더빙 콘텐츠를 제작하면 최소 600만원이 들어간다. 영화 1편당 더빙 비용은 최소 5000만원에 달한다.

적잖은 비용이 들지만 콘텐츠 화자와 동일하지 않은 목소리를 가진 성우는 오리지널 콘텐츠의 가치를 그대로 반영하기 어려운 측면이 있다. 언어가 달라지면 오디오와 영상 입 모양이 일치하지 않을 수 있어 콘텐츠 몰입도도 떨어진다. 

허드슨AI가 자사의 최대 강점으로 꼽는 기술력은 여기에 있다. AI 엔진을 기반으로 더빙을 제작해 립싱크까지 완벽하게 완성해 낸다는 것이다. 원작 배우 목소리 그대로 8개 언어로 대사하는 게 가능하고, 성우 목소리가 배우의 입 모양과 따로 노는 이질감도 없다. 
 
멀티모달 생성 AI 기술로 더빙 한계 극복
등장인물별 음성 학습과 트랙 편집 모습 사진허드슨AI
허드슨AI 직원이 등장인물별 음성 학습과 트랙을 편집하는 모습. [사진=허드슨AI]

허드슨AI는 자사의 음성·영상 멀티모달(시·청각 등 다양한 방식을 통해 정보 교환) AI 기술을 통해 이러한 기존 더빙 콘텐츠의 한계를 극복, 경쟁력을 높였다.

허드슨AI는 자사 생성 AI 더빙 기술에 대해 멀티모달을 활용하기 때문에 기존 AI 더빙으로는 표현하기 어려웠던 드라마틱한 연기 표현이 가능하다고 설명했다. 기존 음성 AI 기술은 대부분 정보 전달성 콘텐츠에 집중해 왔기 때문에 감정이 필요한 미디어 더빙에는 활용되기 어려웠다는 부연이다. 이런 한계를 공략한 허드슨AI는 연기 표현이 가능한 음성 기술을 활용, 투입비용이 가장 큰 영화나 방송 등 미디어 AI 더빙 시장에 조기 진입할 수 있었다. 

실제로 제작 시간과 비용을 절반 이하로 감축시키면서도 오리지널 콘텐츠와 비슷한 더빙을 구현했다는 설명이다. 오리지널 배우 목소리로 언어 제약 없이 자연스러운 더빙 음성을 제작하고, 자연스러운 입 모양 생성으로 립싱크 편집·대본 어레인지(처리) 시간도 절반으로 줄였다. 오리지널 지식재산권(IP)의 글로벌 확장과 가치도 확장됐다는 평가다.

허드슨AI는 언어와 목소리에 구애받지 않고 생생한 연기 더빙 음성 생성이 가능하다. 현존하는 음성합성(TTS)은 원본 연기 음성의 운율이 제한적으로 반영된다. 모델에 입력된 음성적인 특징을 기준으로 음성을 생성하기 때문이다. 이는 역동적인 연기 콘텐츠보다는 교육·뉴스 등 정적인 정보 전달성 콘텐츠에 적합한 기술이다. 

TTS 기술로 표현하기 어려운 웃음·한숨·울음 등 비언어적인 표현도 할 수 있다. 가이드 음성을 기반으로 하는 음성 변환 기반 더빙 기술을 적용하기 때문이다. 특히 언어적인 표현에는 허드슨AI가 개발한 액팅(연기) TTS 기술의 초기 버전이 접목된다. 연기 TTS는 가이드 음성조차 필요 없는 연기가 가능한 음성 AI 기술이다. 
   
신현진 허드슨AI 대표는 "원작 배우의 음성을 활용한 다국어 연기 음성과 이에 맞춘 입 모양을 생성해 주는 음성·영상 멀티모달 AI 기술을 적용했다"며 "전 세계 어디에서나 원작 콘텐츠 느낌 그대로 더빙 콘텐츠를 즐길 수 있다"고 설명했다. 
 
더빙 제작 비효율성 공략하자 시장 반응 '꿈틀'
신현진 허드슨AI 대표 사진허드슨AI
신현진 허드슨AI 대표. [사진=허드슨AI]

창업 2년이 채 안 된 스타트업이지만 국내 굴지의 기업과 협업이 꾸준히 이어지고 있다. 허드슨AI는 미디어 콘텐츠 소비와 제작의 문화를 혁신하는 글로벌 기업으로의 성장을 꿈꾼다.  

허드슨AI는 더빙 제작 효율성에 대한 치열한 고민에서 시작된 업체다. 이화여대에서 교육공학을 전공한 신현진 허드슨AI 대표는 학부생 시절부터 '콘텐츠, 미디어, 기술과 교육의 적용'에 대한 관심이 남달랐다. 신 대표는 "사회 초년생 때 콘텐츠 회사에서 더빙 제작의 비효율성을 경험했다"며 "이를 혁신하고자 서울대 석사 과정 중 자연어처리(NLP)·멀티모달 AI 기술을 연구하던 연구실 동료들과 공동창업을 결심했다"고 말했다.

기존에는 성우 녹음본에서 글자 한 글자만 바뀌더라도 재녹음을 해야 했고, 성우가 변경되는 경우 전체 트랙을 다시 녹음해야 하는 일들이 비일비재했다. 신 대표와 공동창업자들이 더빙을 사업 아이템으로 삼은 주된 배경이다.   

비효율성을 파고든 허드슨AI의 공략은 관련 시장에서 생각보다 빠른 수요로 이어졌다. 창업 1년도 안 된 시기 SK브로드밴드와 협업해 B tv 영화 '정직한 후보 2'와 애니메이션 '극장판 헬로카봇 시즌4' 등 여러 편의 영화를 더빙했다. 이어 CJ ENM·MBC 등 국내 대형 미디어를 비롯해 다양한 크리에이터들과 협업도 진행 중이다. 

허드슨AI는 지난 1월 미국에서 열린 CES 2024에서 전 세계에 AI 더빙 기술을 소개했다. 최근 막을 내린 세계 최대 통신·모바일 박람회 '모바일월드콩그레스(MWC) 2024'에서도 관람객들 눈길을 사로잡았다. 국내 이동통신 1위 사업자 SK텔레콤 지원으로 MWC에 참가한 허드슨AI는 영상 콘텐츠 속 배우들의 입에 자연스럽게 외국어 더빙을 입히는 AI 기술을 선보여 큰 호응을 얻었다.
 
미디어 콘텐츠 제작 시장 진출 본격화
입력된 비디오 내 등장인물들의 입모양 학습 과정정교한 학습을 위한 미세조정 사진허드슨AI
입력된 비디오 내 등장인물들의 입 모양 학습 과정(정교한 학습을 위한 미세조정). [사진=허드슨AI]

허드슨AI는 CES에 이어 참가한 MWC를 유럽 시장 진출의 발판으로 삼고 있다. 세계적으로 더빙에 대한 수요가 높은 독일·프랑스·이탈리아·스페인 등 서부 유럽 지역에서 인지도를 높이고자 통신·미디어 플랫폼과 협업 기회를 노린다는 전략이다.

국내와 달리 일부 국가에서는 콘텐츠 수출에서 더빙이 자막보다 더 중요하고 필수적인 요소로 꼽힌다. 글로벌 시장조사기관 스태티스타에 따르면 프랑스·독일·헝가리·러시아 등에선 자막보다 더빙에 대한 선호도가 압도적으로 높다.

허드슨AI 주요 공략 시장은 △IP △미디어 △크리에이터 등 기업간 거래(B2B)와 기업·소비자간 거래(B2C)다. 궁극적으로는 미디어 콘텐츠 소비와 제작 문화를 혁신, 방대해질 미디어 콘텐츠 제작 시장으로 나아간다는 포석이다.

현지화 프로젝트에 많은 자원을 투입하는 미디어 기업이 1차 목표다. 특히 OTT·FAST(패스트·무료 광고 기반 스트리밍 TV)·콘텐츠배급사·제작사를 주요 타깃으로 하고 있다. 현재는 K-콘텐츠를 해외로 배급하는 국내 미디어 기업에 집중하고 있으나, 이후에는 해외 미디어 기업으로 확장한다는 계획이다. 

신 대표는 "더빙에 익숙한 유럽이나 남미 지역은 낮은 퀄리티를 감수하더라도 더빙으로 해외 콘텐츠를 소비하는데, 기존 콘텐츠가 왜곡되는 경우가 많다"고 평가했다. 그러면서 "AI 기반 더빙을 통해 공급자 입장에서 퀄리티 높은 미디어 더빙을 더욱 쉽게 제작할 수 있도록 하고, 시청자 입장에서는 자연스럽고 더욱 다양한 글로벌 콘텐츠를 즐길 수 있도록 하는 것이 목표"라고 말했다. 
 
'더빙 시장' 10조원 규모 성장...정부 지원도 잰걸음
AI와 디지털 기반의 미래 미디어 계획 인포그래픽 사진과학기술정보통신부
'AI와 디지털 기반의 미래 미디어 계획' 인포그래픽. [사진=과학기술정보통신부]

허드슨AI는 생성 AI 더빙 서비스를 B2B에서 B2C로 확대하고 종국에는 10조원에 이르는 글로벌 시장으로 뻗어나간다는 야심찬 목표를 세웠다.

미디어 콘텐츠 제작 시장은 가까운 시일 내 거대한 먹거리로 다가올 전망이다. 실제 과학기술정보통신부 산하 소프트웨어정책연구소에 따르면 이 시장은 2025년 4조4000억 달러(약 5700조원)에 달한다. 이 가운데 글로벌 영화 더빙 시장 규모는 4조5000억원 수준으로 추산된다. 여기에 OTT·엔터테인먼트·게임·교육 등 콘텐츠 더빙 시장을 합산하면 10조원 규모로 예상된다. 

글로벌 OTT 1위 넷플릭스는 전 세계 130여 개 스튜디오와 협업하며 33개국에 더빙 콘텐츠를 제공하고 있다. 자막 대비 더빙 비율은 80%에 달한다. 유튜브 역시 더빙 음성을 선택할 수 있는 멀티오디오트랙 기능을 주요 크리에이터들에게 제공하고 있다. 뉴미디어 크리에이터들에게도 더빙 콘텐츠 제작 수요가 높아질 것으로 예상된다. 국내에서도 정부 지원에 따라 관련 시장 활성화가 예고됐다. 

정부도 생성 AI 기술을 기반으로 OTT를 포함한 미디어·콘텐츠 산업 육성에 나설 예정이다. 국내 콘텐츠 기업의 경쟁력을 제고, 해외 진출을 돕는다는 방침이다. 국내 미디어·콘텐츠업계는 글로벌 OTT와 경쟁이 치열해지면서 제작비가 급증하고 적자 폭이 커져 신기술 투자 여력이 부족한 상황에 놓였기 때문이다.

지난해 9월 과기정통부는 이런 내용을 담은 'AI와 디지털 기반의 미래 미디어 계획'을 발표했다. 정부 계획에 따르면 기획과 제작 단계에서는 미디어·콘텐츠 기업과 초거대 AI 기업을 연결해 기획·창작·촬영·편집 등에 생성 AI를 활용하는 서비스를 개발하고 상용화할 수 있도록 돕는다. 마케팅 단계에서는 AI가 자동으로 번역·자막·더빙 작업을 해주는 기술을 개발, 토종 콘텐츠의 해외 진출 확대를 지원한다. 이 같은 지원책은 오는 5월 나올 사업 공고를 통해 본격화할 전망이다. 

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
공유하기
닫기
기사 이미지 확대 보기
닫기
언어선택
  • 중국어
  • 영어
  • 일본어
  • 베트남어
닫기