"청각장애인의 음성 목소리, KT AI가 대신 내드립니다"
2020-07-26 09:07
KT, 청각장애인 참가자 모집해 AI로 목소리 구현
텍스트를 자신의 목소리로 바꿔 전화로 소통도
텍스트를 자신의 목소리로 바꿔 전화로 소통도
목소리 찾기는 선천성 장애를 안고 있거나 사고나 질병에 의해 후천적으로 목소리를 잃은 농인의 목소리를 만들어 주는 프로젝트다. 이 프로젝트는 삶에 도움이 되는 기술로 일상의 불편함을 덜고자 하는 고민에서 출발했다. KT는 지난 4월 참가자 20명을 선발하고 목소리 구현에 들어갔다.
KT는 국내 최고 수준의 개인화 음성합성기술(P-TTS)을 보유하고 있다. 개인화 음성합성기술은 딥러닝 기반 학습을 통해 사람의 목소리를 만드는 기술이다. 이번 목소리 찾기 프로젝트에서 KT는 국내 최초로 본인 목소리 학습 데이터 없이 목소리를 구현했다. 기존 음성합성기술은 한 문장이라도 본인 목소리 녹음이 필요했으나, KT는 이번 프로젝트에서 가족 목소리 데이터를 이용해 본인 목소리를 만들었다.
KT는 성별, 나이, 구강구조 등 개인 특성을 AI 엔진으로 분석해 참가자만의 특색 있는 목소리를 만들었다. 각 참가자의 동성 가족 구성원들은 참가자의 목소리 구현을 위해 1000문장을 녹음했고, 인당 평균 6시간이 소요됐다.
KT는 가족의 목소리 데이터와 구강구조 데이터를 양 축으로 두고 목소리 모델링을 진행했다. 구강구조가 유사한 형제·자매가 녹음을 진행한 경우에는 구현된 목소리 값의 오차가 적어 목소리를 구현하는 작업이 비교적 수월했다. 다만 부모님이 목소리 녹음을 진행한 경우엔 오차가 커 새로운 모델링을 진행해야 하는 경우가 많았다. 또 나이에 따른 억양 차이도 보정이 필요했다.
KT는 참가자들이 이번에 구현한 자신의 목소리로 언제나 소통할 수 있도록 전용 모바일 애플리케이션 '마음 Talk(이하 마음 톡)'을 개발했다.
마음 톡은 농인이 앱에 입력한 텍스트를 KT GPU 클라우드 플랫폼에 전달해 참가자 각각의 목소리로 바꾼다. 이 과정에서 GPU로 수천만 번의 연산을 진행해 음성을 만든다. 실제 연산 시간은 1초 내외로 실시간으로 대화할 수 있다. 자주 쓰는 문장은 저장해뒀다가 필요할 때 즉시 재생을 눌러 상대방에게 음성을 전할 수 있다. 또 농인과 건청인이 한 공간에 있을 때 대화하는 것도 도와준다.
마음 톡의 기능 중 '내 목소리 음성·영상통화'를 이용하면 농인은 문자를 하는 방식으로 소통하고 상대방은 일반 음성통화하는 것처럼 대화를 나눌 수 있다. 음성통화 중간에 통화를 끊지 않고 영상통화로 전환이 가능해 수어와 목소리를 함께 사용해 소통할 수 있다.
KT는 앞으로 2년 동안 전용 앱을 지원하고, 사용자의 불편함을 점검해 지속적으로 앱을 업데이트할 예정이다.
지난 3월 KT '마음을 담다' 기업광고 '내 이름은 김소희입니다' 편에 출연한 김소희 씨의 어머니 송재화 씨는 "눈이 어두워서 소희가 문자를 보내도 잘 볼 수가 없어 소희가 나가서 연락하면 손녀딸이 중간 메신저가 돼야 했다"며 "앱을 사용하면서는 소희와 내가 직접 대화할 수 있어서 편리하고, 또 딸 목소리를 들으니 너무 좋다"고 소감을 전했다.
한편, KT는 25일 서울·부산·광주·대전에서 농인 참가자와 가족들에게 마음 톡 앱 사용법을 설명하는 시간을 가졌다. KT는 유튜브 생중계로 각 지역 행사장을 연결했다. 이 자리에서 참가자와 가족들은 마음 톡 앱을 이용해 대화를 나눴다.
목소리 찾기는 KT가 2003년 시작한 '소리찾기 사업'과 맞닿아 있다. 소리찾기는 청각장애인들에게 인공와우·인공중이·뇌간이식 등 수술을 지원하고, 수술 후 재활 프로그램인 'KT꿈품교실'을 운영하는 사업이다.
양율모 KT 홍보실장(상무)는 "목소리 찾기 프로젝트는 지난 18년 동안 이어온 소리찾기 사업의 연장선"이라며 "앞으로도 KT는 마음을 담아 목소리 찾기 프로젝트를 이어갈 것"이라고 말했다.