[인터뷰] "AI 목소리 더 사람답게"…엔씨 연구진, 디지털 휴먼 개성 빚는다

2022-10-12 00:10
AI센터 스피치AI랩 뮤직AI팀·음성합성팀 연구
국제학회 '인터스피치' 음성합성 논문 3편 채택
미래 프로젝트 '디지털 휴먼' 상호작용 '주춧돌'
이경훈 팀장 "노래하는 AI, 새로운 즐거움 줄 것"
주영선 팀장 "기술 확산할수록 윤리문제 신중히"

엔씨소프트 AI센터 스피치AI랩의 주영선 음성합성팀장(왼쪽)과 이경훈 뮤직AI팀장이 2022년 9월 국제 AI 학회 인터스피치 2022 채택 논문을 주제로 아주경제와 인터뷰하고 있다. [사진=유대길 기자 dbeorlf123@ajunews.com]

게임 회사 엔씨소프트가 업계 선도적인 음성 인공지능(AI) 기술력을 선보였다. 지난달 열린 세계적 권위의 음성 AI 분야 국제학회 '인터스피치 2022'에 채택된 논문 세 편을 통해 '노래하는 AI'와 '말하는 AI'의 표현력·자연스러움을 높이는 방법을 제안해 학계와 산업계에서 뜨거운 관심을 끌고 있다.

엔씨소프트 AI센터 산하 '스피치AI랩' 소속 이경훈 뮤직AI팀장과 주영선 음성합성팀장이 최근 본지와 인터뷰하면서 논문 내용을 소개하고 '사람보다 사람 같은' 음성 AI 비전을 제시했다. 다음은 두 사람(직책명 생략)과 일문일답한 내용.
 
'육성 샘플 없이' 노래 잘하는 AI 만들기…이경훈 뮤직AI팀장 "인간과 기계 상호작용의 새로운 즐거움을 위한 연구"
이경훈 팀장을 포함한 엔씨소프트 연구자 3인(김태우·강민수·이경훈)의 '적대적 다중 작업 학습 기반 가창 음성 합성 모델: 음색 표현과 피치 표현을 효과적으로 분리 모델링하기 위한 연구(Adversarial Multi-Task Learning for Disentangling Timbre and Pitch in Singing Voice Synthesis)' 논문이 올해 인터스피치에 채택됐다. 이 연구는 음향신호의 주파수와 강도를 상대적 단위(멜)로 변환해 시계열 그래프(스펙트로그램)로 나타내는 '멜-스펙트로그램'을 예측하는 SVS 모델의 성능을 높이기 위해 음색과 음높이 특징을 분리해 다루는 적대적 생성 신경망(GAN) 기반 다중 작업 학습 방법을 제안했다. 먼젓번 연구의 가사 전달력 개선 모델(N-Singer)보다 더 자연스러운 표현이 가능해졌다.
 

이경훈 엔씨소프트 AI센터 스피치AI랩 뮤직AI팀장 [사진=유대길 기자 dbeorlf123@ajunews.com]

-엔씨소프트의 '가창 음성 합성(SVS)' 기술과 일본 기업 야마하가 만든 '하츠네 미쿠' 등 노래를 목적으로 한 기존 프로그램과 어떻게 다른가.

이경훈: "하츠네 미쿠는 야마하의 음성 합성 프로그램(보컬로이드)을 이용할 때 원하는 소리를 쉽게 얻을 수 있도록 만든 '가수 라이브러리'다. 여기 저장된 실제 사람의 목소리 샘플을 골라 음높이와 음색을 조정하고 연결해 가창 음성이 만들어진다. 우리는 아예 처음부터 끝까지 사람 목소리 샘플을 주지 않는 상태에서 원하는 소리를 얻기 위한 AI를 만든다. AI가 음의 높이와 길이 등을 포함하는 악보 정보와 발음 정보가 담긴 가사로 가창 음성 패턴을 학습하고, 이후 어떤 가사와 악보 정보를 입력하면 그에 맞는 노랫소리가 나오게 하는 것이다."

-이번 논문은 어떤 내용인가.

이경훈: "앞서 SVS 모델의 가사 전달력을 개선하는 연구를 했고 올해는 합성한 결과물의 자연스러움을 높이는 연구를 진행했다. 기존 방식은 노랫소리 '음높이(pitch)'에 따라 나타나는 자연스러운 '음색(timbre)'을 표현할 수 없었다. 가창 음성 음높이와 음색 특징을 명시적인 정보 없이 독립적으로 학습했기 때문이다. 그래서 가사와 미디(MIDI, 디지털 악보 규격) 정보를 함께 다루면서도 별도의 음향 특징을 예측하는 '다중 작업 학습(multi-task learning)'으로 음높이와 음색을 분리하는 방법을 제안했고, 이 방법으로 각 표현을 더 정교하게 예측해 합성음 품질을 높인 SVS 모델을 만들었다."

-음색과 음높이를 분리한다는 게 무슨 뜻인지.

이경훈: "음색을 흔히 보컬의 '톤(tone)'과 혼동하기 쉽지만, 우리가 말하는 음색은 이걸 포함하는 더 큰 개념이란 점을 염두에 둬야 한다. 우린 운율을 제외한 모든 정보를 음색이라고 정의한다. SVS 모델에 '가수(singer) ID' 값이 들어가는데, 이는 보컬 톤을 제어할 수 있게 만드는 역할을 한다. 음색은 보컬의 톤뿐 아니라 숨소리 같은 것도 포함한다. 음높이는 (음색과 구분해) 운율적인 특징으로 정의하고, 주로 소리의 '기저 주파수(fundamental frequency)'를 음높이로 정의해 연구한다."

-'공기 반, 소리 반'으로 노래하는 AI도 개발될 수 있을까.

이경훈: "이 연구는 아니지만 (노랫소리의) 어떤 구간에 해당하는 음색 표현에서 숨소리나 가성과 진성 같은 특징을 분리하거나 사람에 따라 나타나는 차이를 구별하는 식으로 음색을 더 세분화하는 연구가 있다. 음색에서 공기와 소리 비율을 가리는 특징까지 분리할 수 있다면 시도할 수 있겠다. 아직 해 보진 않았지만 재미있을 것 같다."

-SVS 모델을 다루게 된 계기는.

이경훈: "음성합성 연구를 하다 보니 음에 변화를 주고 싶어졌다. 말소리는 일반적으로 느껴지는 음높이나 (발화) 속도가 있는데 노랫소리에선 그게 작곡가 마음대로기 때문에 단순한 텍스트만으로 (자연스럽게) 만들기 어렵다. 악보를 함께 다루는 AI 모델을 만들어보자는 생각이었다. 연구 초기 가사를 해석하는 부분, 악보를 해석하는 부분, 이렇게 입력을 처리하는 모듈을 구분해 학습했더니 (성능 개선이) 좀 더 잘 되는 것 같았다. 궁극적으로는 가사를 그대로 두고 음만 바꾼다든지, 더 다양한 요소가 서로 영향을 받지 않고 합성될 수 있는 SVS를 만들고 싶다."
 

이경훈 엔씨소프트 AI센터 스피치AI랩 뮤직AI팀장 [사진=유대길 기자 dbeorlf123@ajunews.com]

-SVS 모델 연구와 텍스트를 말소리로 바꾸는 일반 음성합성(TTS) AI 연구는 어떻게 다른지.

이경훈: "말소리는 음절 속도 차이가 크지 않은 편인데 (노랫소리는) 음 길이가 다양하다는 게 가장 특징적인 차이점이자 연구상 어려운 점이다. 노래마다 어떤 음절은 길게 끌기도 하고 어떤 것은 거의 묵음으로 짧게 끊기도 하는 식이다. 우리가 관심을 두는 연구 범위에선 비브라토(진동 발성)나 가성, 두성 등에 따른 표현의 차이를 고려하지 않아도 되지만 SVS 전반의 관점에선 해야 할 수 있다. TTS 연구에서는 전혀 생각하지 않는 부분이다."

-모델 학습을 위해 어떤 데이터가 필요한지, 그런 데이터를 어떻게 수집하는지 궁금하다.

이경훈: "소음이나 실내 반향음뿐 아니라 악기 소리 등 어떤 배경음도 없이 깨끗하게 녹음된 사람 목소리가 필요하다. 외부에서 이런 데이터를 얻기가 쉽지 않아 우리가 직접 스튜디오에서 녹음하거나 외주를 통해 확보한다. 노랫소리가 우리 의도에 맞게 만들어지는지 고려하는 것이 굉장히 중요하다. 녹음할 때 (가수에게) 최대한 디테일한 부분까지 설정된 '보컬 지시서'라는 것을 드리고 최대한 맞춰 달라고 요청하고 있다. 실제 음원에서 보컬만 추출한 데이터도 있지만 이것은 그대로 모델 학습에 쓰긴 어렵고 간접적으로 활용할 수 있는 정도다."

-가사와 악보를 주면 그대로 노랫소리를 들려주는 AI를 만든다고 할 때 이 연구 논문의 성과가 어떻게 기여할 수 있는지.

이경훈: "기계와 사람이 상호작용할 때 음성이 주가 될 것이다. 하지만 단순히 대화만 할 수 있는 것보다 노래를 할 수 있을 때 상호작용이 더 풍부해질 수 있고 엔씨소프트의 목표인 사람들에게 새로운 즐거움을 드리는 것에 다가갈 수 있다고 본다. AI 스피커가 그냥 말소리만이 아니라 사람과 공감할 수 있는 노랫소리를 들려준다면 단조로운 말소리만 들려줄 때보다 더 많이 상호작용할 수 있고. 당장은 목소리만 만들어내고 있지만 앞으로 음악 연주까지 함께 할 수 있게 되고, 이런 형태로 디지털 휴먼이 풍부한 활용처를 찾을 수 있다고 본다."

-AI가 뛰어난 가창력으로 인간 가수 역할을 대신하는 시대가 올까.

이경훈: "어떤 사람이 받아들이기에는 그 능력이 사람보다 뛰어나다고 받아들일 수도 있겠지만, 디지털 휴먼이 인간 가수의 영역을 침범하는 것이 아니라 그 역할을 더 폭넓게 만들어 주는 존재가 됐으면 좋겠다고 생각하고 연구할 때 그런 방향으로 접근하고 있다. 모든 사람이 모든 장르의 음악에 재능을 갖고 있거나 한 것은 아닌 것처럼, 디지털 휴먼이 독특함, 개성을 가지면 좋겠다."
 
단조로운 TTS 학습 데이터 문제 해결로 연구 시간·비용 절감…주영선 음성합성팀장 "표현력·자연스러움 크게 향상될 것"
주영선 팀장을 포함한 음성합성팀 연구자 2인(배한빈·주영선)의 '사전 학습된 뉴럴 보코더를 이용한 새로운 음색 보존 피치 조절 방식(Enhancement of Pitch Controllability using Timbre-Preserving Pitch Augmentation in FastPitch)' 논문은 추가 녹음 없이 '패스트피치(FastPitch)'라는 TTS 모델의 음높이 조절력과 발화 품질을 높인 연구 결과를 담았다. TTS 모델은 음높이가 단조로운 낭독체 위주 음성 데이터로 학습하기 때문에 합성 결과물 스타일도 다양하지 않게 나오고, 음높이를 조절하면 품질이 떨어진다. 음높이가 다양한 음성 데이터를 추가 녹음해야 하지만, 이 연구는 그러지 않고도 원본 음색을 유지하면서 더 다양한 음높이를 표현하는 데이터를 얻는 방법을 제안했다.
 

주영선 엔씨소프트 AI센터 스피치AI랩 음성합성팀장 [사진=유대길 기자 dbeorlf123@ajunews.com]

-TTS 연구에서 '발화 품질'은 무엇으로 정의되고 어떻게 평가되는지 궁금하다.

주영선: "기계음이 아니라 사람처럼 말소리의 억양과 운율이 자연스럽고 잡음 없이 깨끗이 들리는 것을 품질이 높다고 한다. 또한 발음이 정확하고 또렷하게 들리는 것도 중요한 요소로 본다. 평가는 사람들이 합성음 샘플을 듣고 평가하는 '청취 평가' 방식이 있고 녹음 음성, TTS 합성음에서 각각 특징을 추출해 둘의 차이를 측정하는 방식도 있다."

-이 TTS 모델의 음높이 조절 방법 연구 논문은 어떤 내용인지, 연구 성과는 무엇인지.

주영선: "사람은 같은 말을 하더라도 일정한 음높이로 얘기하지 않고 평균보다 높거나 낮게 말할 수 있다. TTS 합성음이 이렇게 다양한 음높이를 표현하려면 기본적으로 학습을 위한 데이터가 다양한 음높이로 녹음된 것이어야 한다. 이 연구는 주어진 데이터의 음높이가 다양하게 구성되지 않았더라도 TTS 합성음을 평균 음높이뿐 아니라 더 높거나 낮은 여러 음높이에 일정 수준 이상 품질로 얻어내는 것을 목표로 했다. 이 연구를 통해 합성한 결과물의 음높이를 사용자 의도대로 조절하고 음성의 표현력도 높일 수 있게 됐다."

-추가 녹음 없이 합성음 품질을 유지하면서 음높이를 조절할 수 있는 게 왜 중요한가.

주영선: "단순하게 얘기하면 비용과 시간과 인력 부담을 덜 수 있기 때문이다. TTS 모델 연구 단계에서 전체 기간이 오래 걸리는데 학습 데이터를 확보하기 위한 단계의 일정을 단축할 수 있다. 이미 만들어진 모델 성능을 높이기 위해 기존 데이터베이스의 특정 원본 음성에 낮은 소리는 충분한데 높은 소리는 부족한 것 같다면 해당 성우를 다시 섭외해야 한다. 외부에서 구매한 데이터베이스에서는 동일 인물 섭외를 통한 데이터 추가가 불가능할 때도 있다. 새로운 인물로 음성 데이터를 확보할 때도 연구를 위한 시간과 비용을 절감할 수 있다."

-'포토샵'으로 사진 색조 바꾸듯이 합성음 감정도 간편하게 조절할 수 있게 될까.

주영선: "즐거움이나 슬픔과 같은 감정에 따라 표현을 조절할 수 있게 될 것이다. 전부터 표현력을 (높이기) 위한 연구를 진행해 왔는데 각 특징을 세부적으로 조절하는 방법부터 전체적인 발화 표현력을 조절하는 방법까지 연구가 이뤄졌다. 사용자 의도에 따라 시나리오가 다양해진다. 전체적으로 즐거움을 담을 수도 있지만 한 문장 안에서 어떤 부분은 즐겁게, 어떤 부분은 다른 감정으로 세세하게 수정하고 싶을 수 있다. 초반엔 슬픔, 분노 등 각각의 감정을 다뤘는데 장기적으로 '자조하면서 슬픈' 것처럼 복합적인 감정을 표현하는 연구도 하고 있다."
 

주영선 엔씨소프트 AI센터 스피치AI랩 음성합성팀장 [사진=유대길 기자 dbeorlf123@ajunews.com]

주영선 팀장을 포함한 엔씨소프트 연구자 4인(배재성·양진혁·박태준·주영선)의 '계층적 다중 스케일 구조의 변량 자동 인코더 기반 TTS(Hierarchical and Multi-scale Variational Autoencoder for Diverse and Natural Speech Synthesis)'는 합성음의 표현을 다양화해 자연스러움을 향상하기 위한 연구다. 생성된 합성음 자체의 자연스러움뿐 아니라 동일한 문장을 앞뒤 문맥과 상황에 따라 다양한 운율로 합성할 수 있는 AI 모델 'HiMuv-TTS'를 제안했다. 이 모델은 주어진 문장의 전체적인 운율 특징과 문장 내 부분에 대한 운율 특징을 함께 활용함으로써, 동일한 문장을 다양한 운율, 속도, 끊어 읽기 방식으로 다양하게 표현한다.

-합성음의 표현력이 좋아진다는 점에 대해 좀 더 구체적으로 설명해 줄 수 있는지.

주영선: "인터넷 방송에서 마지막에 '내용이 좋으셨다면 좋아요, 구독 부탁드린다'고 하잖나. 사람은 여기서 '좋아요'를 강조하거나 '구독'을 강조하거나 할 수 있지만 TTS는 한 가지 방식으로만 읽는다. 감정에 따라 다르게 할 수 있는 '안녕하세요' 같은 인사말도 마찬가지다. 감정을 다양하게 담을 때 표현력이 좋아지는데 음높이가 중요한 요소다. 말소리의 감정을 파악하는 요소로 음높이, 빠르기, 크기(에너지) 등을 본다. 음높이가 높고 말이 빠르면 즐거운 소리로 들리고 소리 에너지가 작고 음높이가 낮고 떨림이 있으면 슬픈 소리로 구분되는 식이다."

-무엇을 자연스러움으로 정의하고 어떻게 평가했는지.

주영선: "현재로서 합성음의 자연스러움을 평가하는 방법은 사람이 직접 청취해 평가하는 것밖에 없는 것 같다. 매번 실제 사람에게 평가받아야 한다는 점이 TTS 연구의 어려운 부분이다. 같은 문장의 표현이 자연스럽냐에 대한 '정답'이 없기 때문에 평가를 위한 패널로 부서와 옆 팀 사람들, 회사 동료 등 많은 사람에게 들려주고 자연스러운지를 묻는다. 기본적으로 깨끗한 음질과 의도에 맞는 스타일을 포함하는데 우리는 표현의 '억양'에 주목했다. '감정'에 초점을 맞추는 다른 연구도 있고, 딱 잘라서 정의하기는 어렵다. 앞서 얘기한 표현력과는 구분된다."

-일상 속 ARS 상담이나 공공장소 방송 안내 합성음도 많이 개선됐지만, 대부분은 여전히 부자연스럽게 느껴진다.

주영선: "딥러닝 기반 AI가 등장하면서 TTS 합성음의 품질이 확 높아진 시기가 있다. 여전히 과거의 저품질 기술을 쓰는 곳도 있지만, 내비게이션 앱이나 스마트 스피커처럼 앞선 기술이 적용된 서비스는 더 자연스럽다. 자연스러운 합성음을 제공하는 기술 수요가 전체적으로 크게 늘었다."
 
일상에 스며든 음성 AI 기술, 메타버스 속 아바타·친구로…"AI 윤리 깊이 고민하며 연구 中"
올해 인터스피치에 채택된 엔씨소프트 AI센터 스피치AI랩의 음성 AI 연구 논문은 세 건이지만, 엔씨소프트가 음성 AI 연구에 투자한 시점은 7년 전부터다. 그간 스피치AI랩은 학계 권위를 인정받는 여러 학회에 연구 성과를 발표해 왔고 인터스피치에선 올해로 3년째 연속으로 논문을 게재했다. 스피치AI랩의 연구 성과는 학계뿐 아니라 △게임 플랫폼 '퍼플'의 적(보스) 출현을 알려 주는 기능 △게임 튜토리얼 가이드 영상 제작 △캐릭터 대사 녹음 △김택진 대표의 한국어 신작 발표에 적용된 영어 더빙 음성 등 엔씨소프트의 사업에 폭넓게 활용됐다.

엔씨소프트는 향후 음성 AI 분야 연구를 고도화해 다국어 게임 서비스와 글로벌 엔터테인먼트 시장을 겨냥한 성장·신사업 기회를 만들어 나갈 것으로 보인다. 게임과 커뮤니티 속 이용자의 분신이 되거나 가상 세계 속 친구 역할을 할 수 있는 '디지털 휴먼'을 만들고 대화와 노래로 다채로운 상호작용을 할 수 있는 서비스를 할 수 있을 것으로 기대 중이다. 이와 더불어 앞서 발표된 '엔씨소프트 AI 윤리 프레임워크'에 따라 발전한 AI 기술이 편향·악용되지 않도록 윤리적 책임을 깊이 인식하고 연구 단계부터 이 가치를 실천하고 있다고 강조했다.
 

이경훈 엔씨소프트 AI센터 스피치AI랩 뮤직AI팀장 [사진=유대길 기자 dbeorlf123@ajunews.com]

-표준 한국어 기반 음성 AI 연구 성과가 사투리 또는 다른 언어를 다루는 음성 AI 기술에 곧바로 적용될 수 있는지.

이경훈: "여러 언어를 다뤄야 할 때 각 언어 특성을 타기 때문에 그렇게 되기 어렵다. 예를 들어 영어와 한국어는 어순이 다르고 운율도 다르다. 한 언어에 대한 음성 AI 연구를 잘 해내기만도 어려운 일이다. 요즘은 각 언어에 대한 AI 모델을 따로따로 연구한 다음 합치는 시도가 있다. 또 어떤 언어의 사투리를 합성하려면 자연어처리(NLP) 영역과 협업이 필요하다. "

주영선: "TTS 단계를 나눠 보면 텍스트 언어를 처리하는 부분과 음성을 처리하는 부분이 있다. 텍스트 형태로 언어를 처리하는 부분이 언어 특성을 타기 때문에 언어별 접근이 필요하다. 각 텍스트에 해당하는 음성을 처리하는 메커니즘은 그보다 언어 종류에 따른 영향을 덜 받기 때문에 우리가 (한국어 음성 처리를 위해) 개발한 기술을 외국에서 똑같이 적용할 수 있고 우리도 외국에서 발표된 논문의 기법을 그대로 적용한다. 다만 중국어 '성조' 등 언어별 음성의 억양이나 이런 차이에 맞게 합성음을 더 자연스럽게 하려면 종속되는 지점이 있다."

-남을 흉내 내는 모창이나 성대모사를 위한 기술을 상용화한 사례가 있을까.

주영선: "성대모사는 내가 다른 사람과 얼마나 음색이 비슷한가, 또 얼마나 말투가 비슷한가로 볼 수 있다. 특정 유명인에 대한 음성 데이터가 있다면 그와 비슷한 스타일로 합성된 목소리를 만들 수 있다. 우리에게는 그런 데이터 없이 그 음색과 말투를 비슷하게 만들어 보는 연구를 진행하고 있는데, 어느 정도 품질을 개선하기 위한 단계를 밟고 있다."

이경훈: "해당 기술은 아니지만, 그와 유사하게 노래를 잘 못 부르는 사람이 잘 부를 수 있게 하는 시도로 '싱잉 보이스 스타일 트랜스퍼(Singing Voice Style Transfer)'라는 연구를 진행하고 있다. 앞서 말씀드린 것처럼 음색과 음높이를 분리하면 (특정 가수가 구사한 노랫소리의) 음높이를 따라 다른 사람 목소리 톤을 넣어 줄 수 있다. 이 기술을 더 발전시키면 어떤 노래를 다양한 스타일로 부르는 AI 모델도 만들 수 있을 것으로 본다."

-음성이나 음성을 포함한 영상을 다루는 상업용 AI 제품이나 서비스가 텍스트·이미지를 다루는 기술보다 드물어 보이는 이유가 뭘까.

이경훈: "(AI 모델 학습 과정 전반적으로) 음성이 텍스트나 이미지에 비해 어렵다. 음성은 '길이'가 다양하기도 하고 여러 정보가 혼합돼 있다. 텍스트는 그것만 다루면 되는데 음성을 합성할 땐 텍스트와 음향 관련 정보를 함께 다뤄야 한다. 이는 개발하는 사람 관점에서 예측하기 어려운 돌발 변수가 많아지는 배경으로 작용한다. 또 음성 데이터가 녹음된 마이크 위치, 주변 환경, 이런 것까지 고려해야 할 때도 많다. 이미지는 픽셀이라는 단위가 정해져 있고 텍스트도 눈으로 볼 수 있지만 음성은 눈에 보이지 않는 만큼 (결과물에 중요하게 작용하지만) 무시되기 쉬운 요소들이 있어 제대로 평가하기 어려운 측면도 있는 것 같다."
 

주영선 엔씨소프트 AI센터 스피치AI랩 음성합성팀장 [사진=유대길 기자 dbeorlf123@ajunews.com]

주영선: "음성 인식 기술에 초점을 맞춰 보면 실제로는 시리·빅스비같이 보이지 않게 많이 쓰이는 기술이고 대단지 아파트 출입 통제 시스템이나 은행 지점을 방문했을 때 음성 대화를 지원하는 'AI 은행원'처럼 일상 속 사례들이 은근히 많다. AI 은행원처럼 영상에 시선이 먼저 가다 보니 음성 AI 기술이 간과될 수 있다. 어쩌면 사용자가 손으로 조작할 수 있는 텍스트나 이미지 처리 기술을 더 편하다고 생각하거나 주위에 사람들이 있는 곳에서 목소리를 내는 것을 사용자가 부끄럽게 여겨서 음성 AI 기술을 덜 쓸 수 있다."

이경훈: "다른 이유를 찾아본다면 AI 기반 합성 결과물 가운데 텍스트나 이미지보다 음성이 (윤리적으로) 이슈가 될 소지가 크다. 누구든지 자신이 하지 않은 말을 한 것처럼 오해받을 수 있다. 유명인 목소리를 이용해 욕설하거나 그러면 안 되지 않나. 또 사람들이 이미지·텍스트보다 음성에서 합성 결과물 오류나 음성에 실린 감정 때문에 더 민감하게 반응할 수 있다. 그래서 (음성을 합성하는 기술을) 서비스하는 데 제한을 좀 더 둘 것으로 생각한다."

주영선: "엔씨소프트에서는 AI 윤리 프레임워크를 공표했고 우리도 이와 관련해 많이 고민하면서 연구한다. SVS와 TTS 기술을 다룰 때 이게 다른 사람에게 함부로 악용되지 않도록 주의를 기울이고 있다. 연구를 위해 성우들과 계약할 때부터 이것(녹음된 음성)을 악용하지 않는다는 내용을 계약 사항에 포함하고 있다. 그래야 그분들도 안심하고 우리에게 협력할 수 있기 때문이다. 이런 기술이 외부에 정식으로 제공되면 사용자들 또한 유의할 필요가 있다고 생각한다."

-이번 인터뷰에 소개한 각 연구 분야별로 큰 기술적 진전이 있다면 사람들이 미래 일상에서 어떤 AI를 볼 수 있게 될까.

주영선: "은행 지점처럼 많은 사람이 방문하지만 응대할 직원 수는 한정된 곳과 같은 서비스 영역, 일상 환경에서 (TTS 기술로) 사용자를 응대할 수 있다면 생활이 더 편리해질 수 있지 않을까 생각한다. 일각에선 TTS가 성우의 역할을 대신할 수 있지 않느냐고 우려가 있지만 지금도 목소리가 필요한 모든 일을 성우들이 대신할 수 없지 않나. 사람이 직접 맡을 영역과 기술로 사람의 생활을 편리하게 돕는 영역이 따로 있을 것이다. 시각장애인이나 언어 소통에 어려움이 있는 분들께 TTS 기술이 도움을 드리고 있고 이런 분야 연구가 더 많아질 것이다."

이경훈: "(SVS 기술로) 내 아바타가 될 수도 있고 자신과 대화를 나눌 친구가 될 수도 있는, 더 나아가면 노래를 불러 주는 디지털 휴먼을 만들 수 있게 될 것이다. 가상 싱어송라이터 같은 나만의 가수 역할을 할 수도 있고 메타버스 세계에서 나와 다른 사람들이 상호작용하기 위한 아바타 역할을 할 수도 있다."