'her'에 가까워진 챗GPT "보고 듣고 말하고, 사람 표현력까지 갖춰"
2024-05-14 09:43
"영화 '그녀' 속 스칼렛 요한슨 떠올라" 호평
사람 대화 수준 응답 속도…이용자 표정도 읽어
"드라마틱하게 읽어달라" 요청에 톤 바꾸며 극적요소 더해
아이폰에 오픈AI 음성비서 기능 탑재되나 '기대'
사람 대화 수준 응답 속도…이용자 표정도 읽어
"드라마틱하게 읽어달라" 요청에 톤 바꾸며 극적요소 더해
아이폰에 오픈AI 음성비서 기능 탑재되나 '기대'
챗GPT 개발사 오픈AI가 13일(현지시간) 사용자의 표정을 읽고 실시간으로 질문에 답하고 통역하는 새로운 AI 모델 'GPT-4o'(GPT-포오)를 공개했다. 이 모델은 보고 듣고 말할 수 있을 뿐만 아니라 인간 수준의 표현력과 응답 시간까지 갖췄다.
더버지 등 외신은 GPT-4o가 AI와 사람이 감정을 나누는 영화 ‘그녀(her)’에서 나오는 AI와 유사하다고 보도했다. 샘 올트먼 오픈AI 최고경영자(CEO) 역시 이날 트위터에 ‘her’라고 적으며, 새 모델을 통해 영화가 현실에 가까워졌음을 시사했다.
"스칼렛 요한슨 떠올라"…영화가 현실로
미라 무라티 오픈AI 최고기술책임자(CTO)와 오픈AI 엔지니어들은 이날 실시간 스트리밍을 통해 GPT-4o의 기능을 시연했다.GPT-4o는 이용자와 실시간 음성 대화가 가능하다. 목소리를 다양하게 바꿀 수 있을 뿐만 아니라 노래도 할 수 있다. 또한 이용자와 실시간 카메라 뷰를 공유해 이용자가 보는 것에 반응할 수 있었고, 사람의 표정을 보고 감정도 유추해냈다. 대화 중 사용자가 끼어들어도 대화가 계속 이어졌고, 바로 통역도 할 수 있었다.
더버지는 “AI의 음성 응답은 영화 ‘그녀’에서 스칼렛 요한슨이 연기하는 AI와 매우 유사했다”며 “사용자와 채팅할 수는 있지만 상호작용이 훨씬 제한됐던 챗GPT의 기존 음성 버전에 비해서 놀라운 수준으로 업그레이드됐다”고 짚었다. 예컨대 기존 버전은 카메라가 보는 것에 반응할 수 없었다.
실제 오픈AI는 이용자가 챗GPT를 통해 영상 채팅을 할 수 있도록 할 계획이다. 새 모델의 'o'는 모든 것이라는 '옴니'(omni)를 뜻하듯, 50개 언어를 처리할 수 있다. 실시간 번역 외에 스마트폰 카메라를 이용해 사람의 표정이나 그래프를 읽을 수도 있다.
오픈AI 연구원인 마크 첸이 ‘사랑과 로봇’에 관한 이야기를 들려달라며, “목소리에 감정을 더하고 드라마틱한 느낌을 살려 달라”고 하자 ChatGPT-4o는 감정을 더 하거나 톤을 바꾸는 식으로 이야기에 극적 요소를 더했다.
또한 첸이 이탈리아어만 가능한 사람과 소통하도록 도와달라고 영어로 말하자, 무라티 CTO가 말하는 이탈리아어를 실시간으로 영어로 통역했다.
다른 시연에서는 종이에 적힌 수학 문제(3x+1=4)를 보여주고 풀어주는 과정을 알려달라고하자, 시각 기능을 이용해 단계별 풀이 과정을 음성으로 제공했다.
무라티 CTO는 “사용 편의성 측면에서 큰 진전 이뤘다고 생각하는 것은 이번이 처음”이라며 GPT-4o가 텍스트, 비디오, 오디오 기능이 향상돼 기존 버전보다 훨씬 빠르다고 강조했다. GPT-4o는 지난해 11월 선보인 GPT-4 터보보다 두배 더 빠르지만, 비용은 절반 수준이다.
아이폰에 오픈AI 음성 비서 기능 탑재되나
외신은 GPT-4o가 아이폰에 탑재될 가능성을 주시했다. 이날 블룸버그통신은 아이폰에 챗GPT 기능을 탑재하기 위한 오픈AI와 애플 간 계약이 임박했다고 보도했다. 아이폰의 음성 비서인 시리는 신뢰할 수 없는 것으로 악명 높다. 더버지는 “오픈AI의 새 음성 비서가 아이폰에 실제로 탑재될 수 있다”며 기대감을 나타냈다.올트먼 CEO는 이날 시연 직후 블로그를 통해 “새로운 음성( 및 비디오) 모드는 내가 지금까지 사용해 본 것 중 최고의 컴퓨터 인터페이스”라며 “영화에 나오는 AI 같다”고 썼다. 이어 “그것이 진짜라는 것이 여전히 놀랍다”며 “인간 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화다”라고 강조했다.
무라티 CTO는 오픈AI 기술을 구동하는 데 필요한 그래픽처리장치(GPU)를 제공한 젠슨 황 엔비디아 CEO에게 감사를 표하면서 실시간 시연을 마무리했다. 그는 “오늘 이 시연을 가능하도록 가장 발전된 GPU를 제공한 젠슨과 엔비디아에 감사를 표하고 싶다”고 말했다.
한편, 새 모델은 무료로 제공되지만, 기존 유료 구독자가 무료 이용자보다 5배 많은 질문을 할 수 있다. 이날 시연된 AI 음성 모드는 몇 주 안에 공개될 예정이다.