[일상 속 AI] ① 회의록 정리하고 더빙·작곡에 번역까지 ‘척척’

2020-12-01 08:00
네이버 AI, 음성↔글자 변환... 예약 전화도 응대
AI 동요 창작도... 음악이론 학습 컴퓨터 활용

인공지능(AI) 기술이 일상에 빠르게 파고들고 있다. 회의록, 인터뷰를 글자로 자동 변환해주거나, 문장을 사람의 목소리로 읽고, 예약 전화를 받아주기도 한다. AI는 외국어를 번역하고, 작곡이라는 창작의 영역까지 넘볼 정도로 빠르게 진화하고 있다.

네이버는 최근 AI가 녹음된 음성을 분석해 텍스트로 변환해주는 ‘클로바노트’ 서비스를 출시했다. 회의록, 인터뷰 등 음성으로 저장된 파일을 업로드하면 참석자의 목소리를 구분해 글자로 나타난다. 대화 내용을 다시 들으면서 정리해야 했던 부담을 AI가 덜어주는 것이다. 글자를 클릭하면 해당되는 내용을 음성으로 들을 수도 있다.

네이버는 클로바의 AI 음성인식 기술 중 대화나 강연처럼 긴 문장을 인식하는데 특화된 ‘네스트(Neural End-to-end Speech Transcriber, NEST)’ 엔진과 참석자의 목소리 차이를 구분해주는 ‘와이즈(WISE, Who Is Speaking)’ 엔진이 적용됐다고 설명했다. 사용자가 자주 쓰는 단어나 전문 어휘를 직접 지정해두면 음성 인식 결과가 정확해지는 편의 기능도 담겼다. 클로바노트를 사용한 시간이 누적될수록 음성인식 정확도도 올라간다.

네이버의 AI는 반대로 문자를 음성으로 바꾸기도 한다. 네이버는 지난 2월 AI가 문장을 실제 사람의 음성으로 바꿔 영상에 입혀주는 ‘클로바더빙’ 서비스를 선보였다. 아나운서나 전문 성우를 섭외하지 않아도, 고가의 녹음 장비와 스튜디오를 꾸리지 않아도 누구나 동영상에 더빙을 입힐 수 있는 것이 특징이다. 영어와 일본어, 중국어, 스페인어 더빙 서비스도 제공해 외국인을 위한 영상도 제작할 수 있다. 남성과 여성, 아이 등의 다양한 목소리를 자유롭게 활용할 수 있다. 네이버의 이같은 기술은 ‘네이버 뉴스’에도 적용되고 있다. 네이버 뉴스 내 기사 페이지에서 ‘본문듣기’를 누르면 네이버의 AI가 기사 내용을 소리 내어 읽어준다.

또한 네이버의 AI는 예약 전화 자동 응대 서비스에도 활용되고 있다. 네이버의 관계사인 라인은 에비솔과 지난달 1일 일본에서 ‘에비카 AI 리셉션’을 정식 출시했다. AI 리셉션은 AI 점원 ‘사유리’가 사람처럼 전화하며 에비카에 자동으로 예약을 잡아주는 서비스다. 고객이 “식당 예약을 하고 싶다”고 말하면 언제 예약하기를 원하는지, 몇 명이 오는지, 아이를 위한 의자가 필요한지 등을 물어보고 예약을 확정하는 식이다. 고객이 희망하는 시간에 예약이 차 있으면, 전후 시간대를 추천하거나 인근 체인점의 빈자리를 안내하기도 한다.

네이버는 AI 기술을 활용한 해피콜 서비스도 선보였다. 이 서비스는 AI가 고객에게 전화를 걸어 보험, 증권, 은행 등에서 판매하는 금융상품 완전판매 여부를 확인하고 고객 만족도 조사 등을 하는 것이 특징이다. 이외에도 네이버는 지난 3월 초부터 경기도 성남시와 손잡고 ‘클로바케어콜’ 시범 서비스를 제공하고 있다. 네이버의 AI가 능동감시자에게 하루 2회 전화를 걸어 발열, 호흡기 상태를 파악한다.

AI는 인간만이 가진 능력으로 평가받던 창작의 영역까지 넘보고 있다. 음원 플랫폼 기업 지니뮤직은 최근 국내 업계 최초로 AI 기술로 만든 동요 앨범을 출시했다. AI 작곡시스템 ‘아이즘’을 통해서다. 아이즘의 작곡은 음악이론을 학습한 컴퓨터가 규칙화된 특정 조건에 부합하는 빅데이터를 생성한다. 지니뮤직은 올해 초 CJ ENM, 업보트 엔터테인먼트와 손잡고 AI작곡프로젝트를 진행해왔다. 지니뮤직은 글로벌 음악시장을 겨냥해 12월 글로벌 대상 AI 동요앨범도 출시할 계획이다.

AI는 서로 다른 언어간의 번역에도 활용된다. 국내외 IT 기업들은 AI를 통한 번역 기술 개발에 집중하고 있다. 실제로 구글과 마이크로소프트, 페이스북 등 글로벌 IT 기업들은 최근 다국어 번역 모델을 앞다퉈 공개했다.

구글은 지난 10월 101개의 언어를 번역하는 다국어 AI 모델 mT5를 깃허브에 오픈 소스로 공개했다. mT5는 중복 문장과 데이터를 제거하고 비속어도 거르는 것이 특징이다. mT5는 다국어 모델 성능 측정에서 다른 모델보다 높은 점수를 기록했다. 구글은 mT5 개발을 위해 인터넷 웹사이트에서 750GB 분량의 영어 텍스트 데이터를 활용했다.

마이크로소프트도 지난달 94개 언어를 번역할 수 있는 AI 모델 'T-ULRv2'를 공개했고, 페이스북도 지난 10월 100개의 언어를 번역하는 AI 언어 모델 M2M-100을 깃허브에 공개했다. 페이스북은 뉴스피드에 업로드되는 200억건의 번역을 AI 모델에 학습시키고 100개 언어로 구성된 75억개의 데이터셋을 구축하는 과정을 거쳐 M2M-100을 개발했다. 이는 영어를 사용하지 않고 각 언어를 직접 비교해 번역하는 것이 특징이다.

IT업계 관계자는 “AI 번역기술의 본격적인 발전으로 글로벌 IT 기업의 기술 개발이 활발하다”며 “실생활에서 이용 가능한 내실 있는 서비스 준비가 필요하다”고 말했다.
 

[사진=게티이미지뱅크 제공]