페이스북이 유튜브를 견제하기 위해 내놓은 실시간 동영상 플랫폼 '페이스북 라이브'에 영상 속 음성을 인식해 자동으로 자막을 제작하는 인공지능(AI) 기술을 추가한다.
4일 소프트웨어정책연구소(SPRi)에 따르면, 페이스북은 지난달 15일 페이스북 라이브 영상에 자동으로 자막을 입혀주는 음성인식(Speech Recognition) AI 기술을 공개했다. 현재 영어, 스페인어, 독일어, 프랑스어, 이탈리아어, 포르투갈어 등 6개국어를 지원하며, 페이스북 라이브뿐만 아니라 클라우드 기반 B2B 협업도구인 '페이스북 워크플레이스 라이브'에서도 이용할 수 있다.
4일 소프트웨어정책연구소(SPRi)에 따르면, 페이스북은 지난달 15일 페이스북 라이브 영상에 자동으로 자막을 입혀주는 음성인식(Speech Recognition) AI 기술을 공개했다. 현재 영어, 스페인어, 독일어, 프랑스어, 이탈리아어, 포르투갈어 등 6개국어를 지원하며, 페이스북 라이브뿐만 아니라 클라우드 기반 B2B 협업도구인 '페이스북 워크플레이스 라이브'에서도 이용할 수 있다.
페이스북은 정확도 저하 없이 빠르게 음성을 분석하고 자막을 만들기 위해 발음 어휘를 예측하는 AI 모델의 학습 과정을 단순화했다.
이에 페이스북은 수억개의 서로 다른 단어를 인식하기 위해 음향, 발음어휘, 언어로 구성된 세 가지 AI 모델을 만들었다. 그다음 이 세 가지 AI 모델을 조합해 빠르고 정확하게 음성을 분석하고 자막을 생성한다. 구체적으로 음향 모델은 오디오 세그먼트에서 음소를 예측하고, 발음어휘 모델은 지정된 언어의 단어를 형성하기 위해 음소가 결합하는 방식을 설명한다. 언어 모델은 어휘 간 관계를 포착하는 데 활용한다.
페이스북은 컨볼루션 인코더, RNN 트랜듀서, 트랜스포머 등의 기존 ASR 모델을 융합한 후 빠른 반복 학습과 배포를 할 수 있는 파이토치 프레임워크로 AI 모델 훈련을 진행했다. 페이스북에 따르면, 컨볼루션 인코더는 실시간 스트리밍 효율성이 높고, RNN 트랜듀서는 가볍고 높은 정확도를 보이며, 트랜스포머는 비실시간 영상에 대해 가장 빠르고 정확한 성능을 보유하고 있다.
파이토치는 페이스북이 자체 개발한 기계학습 프레임워크로, 구글의 텐서플로보다 AI 모델의 학습 속도가 빠른 장점이 있다.
SPRi 관계자는 "코로나19로 비대면 사회로 전환이 가속화됨에 따라 주문형 비디오(VOD), 코로나19 관련 뉴스, 화상 회의, 온라인 교육 등 영상 정보에 대한 수요도 함께 늘어나고 있다. 이에 기업은 영상 정보의 시청자를 늘릴 수 있게 자동음성 인식과 자막생성에 관한 원천 기술을 확보할 필요성이 있다. 페이스북의 움직임은 이러한 원천 기술 확보의 일환이다"고 설명했다. 코로나19 확산 이후 페이스북 라이브 방송 수는 6월 기준 전년 동기보다 2배 증가할 정도 급성장했다.
현재 구글 유튜브뿐만 아니라 네이버TV, 아프리카TV 등 국내 동영상 플랫폼도 자막자동생성 기술을 도입하거나 관련 기술을 개발 중이다. 특히 자막자동생성 기술은 기존 영상 콘텐츠 환경에서 소외되어 왔던 청각장애인을 신규 고객으로 확보할 수 있는 장점이 있는 만큼 그 중요성이 점차 커지고 있다. 세계보건기구(WHO)에 따르면. 전 세계 인구의 5%(4억7000만명) 이상이 청각장애를 겪고 있으며, 2050년에는 그 숫자가 9억명에 달할 것으로 예측되고 있다.
페이스북은 컨볼루션 인코더, RNN 트랜듀서, 트랜스포머 등의 기존 ASR 모델을 융합한 후 빠른 반복 학습과 배포를 할 수 있는 파이토치 프레임워크로 AI 모델 훈련을 진행했다. 페이스북에 따르면, 컨볼루션 인코더는 실시간 스트리밍 효율성이 높고, RNN 트랜듀서는 가볍고 높은 정확도를 보이며, 트랜스포머는 비실시간 영상에 대해 가장 빠르고 정확한 성능을 보유하고 있다.
파이토치는 페이스북이 자체 개발한 기계학습 프레임워크로, 구글의 텐서플로보다 AI 모델의 학습 속도가 빠른 장점이 있다.
SPRi 관계자는 "코로나19로 비대면 사회로 전환이 가속화됨에 따라 주문형 비디오(VOD), 코로나19 관련 뉴스, 화상 회의, 온라인 교육 등 영상 정보에 대한 수요도 함께 늘어나고 있다. 이에 기업은 영상 정보의 시청자를 늘릴 수 있게 자동음성 인식과 자막생성에 관한 원천 기술을 확보할 필요성이 있다. 페이스북의 움직임은 이러한 원천 기술 확보의 일환이다"고 설명했다. 코로나19 확산 이후 페이스북 라이브 방송 수는 6월 기준 전년 동기보다 2배 증가할 정도 급성장했다.
현재 구글 유튜브뿐만 아니라 네이버TV, 아프리카TV 등 국내 동영상 플랫폼도 자막자동생성 기술을 도입하거나 관련 기술을 개발 중이다. 특히 자막자동생성 기술은 기존 영상 콘텐츠 환경에서 소외되어 왔던 청각장애인을 신규 고객으로 확보할 수 있는 장점이 있는 만큼 그 중요성이 점차 커지고 있다. 세계보건기구(WHO)에 따르면. 전 세계 인구의 5%(4억7000만명) 이상이 청각장애를 겪고 있으며, 2050년에는 그 숫자가 9억명에 달할 것으로 예측되고 있다.