일본인 영어 발음 현지인 처럼... AI가 음성 변환

2017-08-07 15:28

일본 IT기업 NTT가 독보적이고 실용적인 인공지능(AI) 기술과 서비스를 선보이며 일본 AI 산업을 선도하고 있다.  

AI를 활용한 영상 속 인물 검색 서비스에 이어 일본인의 영어 발음을 현지인 수준의 정확한 발음으로 변환시켜주는 기술을 개발했다. 이 기술은 이르면 내년 쯤 상용화된다.

니혼게이자이신문은 7일 NTT가 인공지능(AI)을 활용해 영어 발음이 능숙하지 않은 일본인이 현지인과 원활한 영어 회화가 가능하도록 음성을 합성해 정확한 발음으로 변환시키는 기술을 개발했다고 보도했다. 이 기술은 똑같은 영어문장을 일본인과 영어가 모국어인 사람에게 읽게 한 뒤, 그 데이터에서 파악된 발음의 차이를 AI의 핵심기술인 기계학습(머신러닝)을 이용해 학습하게 하는 방식으로 구현됐다.
 
 
◆ AI 최신기술 ‘적대적 생성 네트워크’ 활용

휴대전화 통화에서 사용되는 신호처리를 발전시킨 기술을 조합시켜 일본인이 발음한 영어문장을 네이티브 스피커의 발음으로 변환시켜 음성을 합성한다. 또 AI의 최신기술인 ‘적대적 생성 네트워크’를 활용해 음성을 가공한다.

이 기술은 주로 영상 생성에 활용되고 있지만, 인간의 육성이 갖는 특징을 토대로 실제 육성처럼 합성하는 것도 가능하다. 인공적 음성은 그대로 활용할 경우 잘 들리지 않는 등 문제점이 있었지만, 이 기술을 통해 극복할 수 있게 됐다.

이 신문은 NTT의 기술이 일본인 이외에게도 현지인 수준의 영어 발음 변환을 적용할 수 있게 되면 다양한 국가와 지역에서 열리는 국제회의 등에서도 유용하게 쓰일 수 있다고 전했다. NTT는 영어 발음 변환 기술을 고도화해 향후 1~2년 내에 상용화할 수 있게 한다는 게 목표다.
 

◆ AI 인물검색 서비스도 개시

NTT커뮤니케이션즈는 AI기술 중 하나인 심층학습(딥러닝)을 활용해 녹화영상에서 거동수상자 등 특정한 인물을 자동적으로 거출하는 AI 인물 검색 서비스 ‘타쿠미 아이즈(Takumi Eyes)’를 지난달부터 서비스 중이다.

이 서비스는 NTT의 AI 기술 ‘코레보(corevo)'를 활용해 녹화영상에서 AI가 자동적으로 거동수상자를 검색해 특정한다.

동일인물을 특정할 수 있는 요소를 미리 AI가 학습하면 뒷모습 등 다양한 방향에서도 인물 검색이 가능해진다. 흑백영상에서도 정확하게 인물을 검색할 수 있다.

이에 따라 그동안 1시간 정도 소요됐던 특정인물 검색이 15분 이내로 가능해졌을 뿐만 아니라, 검색 대상을 놓치는 경우도 대폭 개선됐다.

이 기술은 복수의 감시카메라(CCTV)로 촬영한 영상 파일로부터 특정 인물이 몇시 몇분에 어떤 카메라에 나타났는지를 알아보는 시간대별 추적도 가능하다.
 

NTT데이터 자료사진 (NTT데이터 제공) 


◆ AI, 치명적 합병증도 예측

NTT데이터는 급성 환자의 바이털데이터를 토대로 AI를 활용해 치명적인 합병증을 사전에 예측하는 시스템을 개발했다. NTT데이터와 스페인 버겐 델 로시오 의대가 공동으로 개발해 버겐 델 로시오 대학병원에서 실증이 진행 중이다. 

이 시스템은 입원실에서 발생하는 인공호흡기와 수액펌프, 바이털 모니터에서 수집한 정보와 전자 진단서, 검사 정보, 약제정보 등을 병원정보시스템(HIS)을 통해 AI가 합병증의 발생 위험도를 실시간으로 예측한다. 

합병증 위험도가 높다고 판단되면, 스마트폰 애플리케이션(앱)을 통해 담당 의사에게 전달된다. 이 때 AI는 환자의 바이탈 데이터와 과거 합병증이 발병한 환자의 데이터를 비교하는 등 관련 근거를 의사에게 알리는 시스템이다. 

이 시스템이 상용화되면 의사가 어디에 있더라도 AI가 스마트폰을 통해 알려주는 환자의 바이털 데이터를 확인할 수 있게 된다. 

NTT데이터는 의사의 진단과 AI의 오류 등을 지속적으로 AI에게 학습시켜 정밀도를 높여간다는 계획이다. 버겐 델 로시오 의대와 진행 중인 실증에선 패혈증 환자의 합병증 발병 가능성에 대한 예측을 검증하고 있다.