챗GPT 개발사 오픈AI가 13일(현지시간) 사용자의 표정을 읽고 실시간으로 질문에 답하고 통역하는 새로운 AI 모델 'GPT-4o'(GPT-포오)를 공개했다. 이 모델은 보고 듣고 말할 수 있을 뿐만 아니라 인간 수준의 표현력과 응답 시간까지 갖췄다.
더버지 등 외신은 GPT-4o가 AI와 사람이 감정을 나누는 영화 ‘그녀(her)’에서 나오는 AI와 유사하다고 보도했다. 샘 올트먼 오픈AI 최고경영자(CEO) 역시 이날 트위터에 ‘her’라고 적으며, 새 모델을 통해 영화가 현실에 가까워졌음을 시사했다.
"스칼렛 요한슨 떠올라"…영화가 현실로
미라 무라티 오픈AI 최고기술책임자(CTO)와 오픈AI 엔지니어들은 이날 실시간 스트리밍을 통해 GPT-4o의 기능을 시연했다.
GPT-4o는 이용자와 실시간 음성 대화가 가능하다. 목소리를 다양하게 바꿀 수 있을 뿐만 아니라 노래도 할 수 있다. 또한 이용자와 실시간 카메라 뷰를 공유해 이용자가 보는 것에 반응할 수 있었고, 사람의 표정을 보고 감정도 유추해냈다. 대화 중 사용자가 끼어들어도 대화가 계속 이어졌고, 바로 통역도 할 수 있었다.
실제 오픈AI는 이용자가 챗GPT를 통해 영상 채팅을 할 수 있도록 할 계획이다. 새 모델의 'o'는 모든 것이라는 '옴니'(omni)를 뜻하듯, 50개 언어를 처리할 수 있다. 실시간 번역 외에 스마트폰 카메라를 이용해 사람의 표정이나 그래프를 읽을 수도 있다.
오픈AI 연구원인 마크 첸이 ‘사랑과 로봇’에 관한 이야기를 들려달라며, “목소리에 감정을 더하고 드라마틱한 느낌을 살려 달라”고 하자 ChatGPT-4o는 감정을 더 하거나 톤을 바꾸는 식으로 이야기에 극적 요소를 더했다.
또한 첸이 이탈리아어만 가능한 사람과 소통하도록 도와달라고 영어로 말하자, 무라티 CTO가 말하는 이탈리아어를 실시간으로 영어로 통역했다.
다른 시연에서는 종이에 적힌 수학 문제(3x+1=4)를 보여주고 풀어주는 과정을 알려달라고하자, 시각 기능을 이용해 단계별 풀이 과정을 음성으로 제공했다.
무라티 CTO는 “사용 편의성 측면에서 큰 진전 이뤘다고 생각하는 것은 이번이 처음”이라며 GPT-4o가 텍스트, 비디오, 오디오 기능이 향상돼 기존 버전보다 훨씬 빠르다고 강조했다. GPT-4o는 지난해 11월 선보인 GPT-4 터보보다 두배 더 빠르지만, 비용은 절반 수준이다.
아이폰에 오픈AI 음성 비서 기능 탑재되나
외신은 GPT-4o가 아이폰에 탑재될 가능성을 주시했다. 이날 블룸버그통신은 아이폰에 챗GPT 기능을 탑재하기 위한 오픈AI와 애플 간 계약이 임박했다고 보도했다. 아이폰의 음성 비서인 시리는 신뢰할 수 없는 것으로 악명 높다. 더버지는 “오픈AI의 새 음성 비서가 아이폰에 실제로 탑재될 수 있다”며 기대감을 나타냈다.올트먼 CEO는 이날 시연 직후 블로그를 통해 “새로운 음성( 및 비디오) 모드는 내가 지금까지 사용해 본 것 중 최고의 컴퓨터 인터페이스”라며 “영화에 나오는 AI 같다”고 썼다. 이어 “그것이 진짜라는 것이 여전히 놀랍다”며 “인간 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화다”라고 강조했다.
무라티 CTO는 오픈AI 기술을 구동하는 데 필요한 그래픽처리장치(GPU)를 제공한 젠슨 황 엔비디아 CEO에게 감사를 표하면서 실시간 시연을 마무리했다. 그는 “오늘 이 시연을 가능하도록 가장 발전된 GPU를 제공한 젠슨과 엔비디아에 감사를 표하고 싶다”고 말했다.
한편, 새 모델은 무료로 제공되지만, 기존 유료 구독자가 무료 이용자보다 5배 많은 질문을 할 수 있다. 이날 시연된 AI 음성 모드는 몇 주 안에 공개될 예정이다.
현재 음성 ai는 유명인, 일반인들의 목소리를 무단으로 합성한 결과물입니다. 음성 ai를 통한 보이스피싱 또한 늘어나고 있으며 이를 막기위한 청원을 도와주십시오.
https://petitions.assembly.go.kr/status/registered/15293F845AEC0F27E064B49691C1987F