메타, 1100개 언어 지원하는 '대규모 다국어 음성인식' AI 모델 공개

2023-05-24 09:01
  • 글자크기 설정

기존 음성 인식 모델 대비 10배 이상 언어 지원

[사진=메타]

메타는 4000개 이상의 음성 언어를 식별하고, 약 1100개의 언어를 음성에서 텍스트, 또는 텍스트에서 음성으로 변환해 주는 '대규모 다국어 음성인식(MMS)' AI 모델을 24일 오픈소스로 공개했다.

메타의 MMS 프로젝트는 음성 정보에 의존하는 사람들을 비롯해 많은 사람들이 더 쉽게 정보에 접근하고 자신이 원하는 언어로 각종 기기를 사용할 수 있도록 돕는 것을 목표로 한다.

기존 음성 인식 모델은 최대 100여 개의 언어만을 지원한다는 한계가 있었다. 메타가 이번에 공개하는 AI 모델은 음성-텍스트 변환 및 텍스트-음성 변환이 가능한 언어의 수를 1107개로 10배 가량 확대했으며, 음성으로 식별 가능한 언어의 수를 4000개 이상으로 40배 가량 늘렸다.

회사 측에 따르면 MMS 프로젝트를 통해 훈련된 AI 모델은 기존 음성 변환 모델과 비교했을 때 우수한 성능을 자랑한다. 자체 분석 결과 음성 변환 언어의 수를 61개에서 1107개로 18배 가량 늘렸을 때 문자 오류율은 단 0.4% 증가했다. 또 오픈AI의 음성인식 모델 '위스퍼(Whisper)'와 유사 비교를 수행한 결과, MMS 데이터로 교육된 모델은 단어 오류율을 절반으로 줄이면서도 11배 더 많은 언어를 처리할 수 있는 것으로 나타났다.

메타는 언어 다양성 보존에 기여하고, AI 생태계 전반의 발전과 책임 있는 개발을 위해 MMS 모델과 코드를 오픈소스로 공개한다는 방침이다. 또 수천 개의 언어를 지원하는 단일 음성 모델 구축을 위해 적용 언어 범위를 늘리고, 기존 음성 기술로는 다루기 어려운 방언 처리 문제 해결을 위해서도 지속적으로 노력할 계획이다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
공유하기
닫기
기사 이미지 확대 보기
닫기
언어선택
  • 중국어
  • 영어
  • 일본어
  • 베트남어
닫기