[전문가 기고] 실생활을 파고드는 음성인식의 현재와 미래

2022-08-26 11:50
이건국 리턴제로 사업본부 본부장

[ ]


인공지능(AI)이 발전하면 사람의 일자리는 줄어들까. AI 전문 회사에 다니면서 가장 많이 듣는 레퍼토리이자, AI에 대한 사람들의 환상을 보여주는 대표적인 질문이다.
 
AI는 공상과학(SF) 영화에도 자주 등장하는 단골손님이다. 아침에 눈을 뜨면 AI가 날씨나 하루 일정을 알려주는가 하면, 재치 있는 유머나 깊이 있는 대화로 감정을 교류하기도 한다. AI는 인간과 기계를 이어주는 매개로 여러 미디어에 등장하며 사람들의 기대감을 투영해 왔다.
 
대다수 사람들이 AI 음성인식을 일상 속에서 보다 친숙하게 경험하게 된 계기는 스마트폰 속 ‘빅스비’와 ‘시리’의 등장이었다. 출시 이전부터 빅스비와 시리는 마치 인간의 개인비서가 돼줄 듯한 기대를 하게 했다. 하지만 기대와 달리 AI 완성도는 실생활에 활용하기에 제한적인 수준이었고, 이제는 알람을 맞춰주는 단순 기능 제공에 그치고 있다.
 
이후로는 AI 스피커가 한창 유행했다. 아마존을 시작으로 구글, 네이버, 카카오와 통신사 등 많은 대기업이 너도나도 직접 개발을 시도한 것만 봐도 AI 스피커에 거는 기대가 얼마나 컸는지 가늠할 수 있다. 하지만 AI 스피커가 출시된 지 수년이 지났음에도 실생활에 사용하는 사례는 여전히 드물다. 주변을 둘러보면 AI 스피커로 음악을 틀고 날씨 정보를 듣는 이들이 있긴 하나, 이는 당초 AI에 대해 기대했던 모습과는 거리가 멀다.
 
AI가 인간을 대체하는 시대가 열리기까지는 오랜 시간이 필요할 것으로 예상된다. 인간을 대신할 것 같았던 만능형 음성인식 기반 AI 기술도 점차 잊혀져 가는 추세다. 반면 작은 기능이라도 정확히 수행하는 전문성 높은 AI는 이미 산업계 곳곳에서 활용되고 있다. 제한된 단어를 인식하는 타깃형 음성인식 서비스나 목소리를 글로 받아적는 직관적인 음성인식 서비스는 실생활에서도 다양하게 쓰인다.

대표적인 사례 중 하나가 스마트폰 내비게이션에 포함된 음성인식 기술이다. 스마트폰을 조작하기 힘든 운전 도중 도착지 주소를 변경해야 할 때 주로 활용된다. 티맵, 카카오맵, 네이버지도 서비스 등은 음성검색만으로 주소 검색 결과를 보여준다. 또 네이버의 ‘클로바노트’는 강의 기록 분야에서 빈번하게 사용되고 있다.
 
리턴제로의 ‘비토’ 서비스는 전화통화 분야에서 손쉬운 다시 듣기 기능을 제공한다. 운전 중에 받은 중요한 전화 내용이 기억나지 않을 때, 회의 내용 일부가 가물가물 한데 상사에게 다시 물어보기 어려울 때 등 일상에서 난처한 상황을 겪은 적이 있을 것이다. 음성 대화 내용을 텍스트로 변환해주는 최신 음성인식 서비스는 이런 상황에서 유용하다. 음성인식 기술이 보다 범용화되면 중요한 대화를 저장하고 언제든 다시 확인할 수 있는 시대가 열릴 것이다.
 
미국은 의료나 영업 등 전문적인 영역에서 음성인식 기술을 활발히 사용하고 있다. 의사가 환자와의 대화에 집중하기 위해 음성으로 의료기록을 작성하는 의료 분야 음성인식 기술은 이미 성숙기에 접어들었다. 이 분야 1위 기업인 뉘앙스는 지난해 마이크로소프트가 약 22조원에 인수하기도 했다. 
 
영업사원을 위한 음성인식 서비스인 ‘대화 지능(Conversational Intelligence)’ 분야도 빠르게 성장 중이다. 이 분야 선두주자인 대화 분석 솔루션 전문기업 공닷아이오(Gong.io)는 시장가치가 약 9조원으로 추정되고, 후발주자인 코러스에이아이(Chorus.ai) 또한 약 7500억원에 줌인포(Zoominfo)라는 나스닥 상장사에 인수됐다. 이밖에 회의 내용을 저장하고 다시 확인할 수 있는 AI 서비스 분야에서도 전 세계적으로 다양한 스타트업이 생겨나고 있다.
 
우리는 일상 속에서 수많은 대화를 하지만, 대화 데이터를 저장하고 활용하는 데는 여전히 익숙하지 않다. 하지만 음성인식 기술이 발전하고 관련 서비스가 활발하게 등장하면서 유료 상담 비용을 내는 대화, 중요 거래처와의 희소성이 있는 대화, 고객 미팅처럼 분석이 필요한 대화 등 고부가가치 음성 대화를 활용하는 시대로 접어들게 될 것이다. 그렇게 음성인식 AI는 사람과 사람 간의 대화를 더 오래 남기고, 대화 데이터에서 새로운 가치를 창출하며 우리 일상에 스며들게 될 것이다.