[테크인트렌드] "BTS 매력은 뭐야" 제미나이·GPT-4o에 물었더니

2024-05-21 06:00
구글 '제미나이' 카테고리별 구분·정확한 정보 나열
오픈AI 'GPT-4o' 문장 자연스럽게 엮어 이해력 높여
영화 '그녀'처럼 사람 표정 읽고 실시간 대화·통역까지
멀티모달 내세운 구글과 'AI 비서' 시장 각축전 예고

구글이 최근 차세대 초거대언어모델(LLM) '제미나이'를 검색 기능을 포함한 제품 전반에 적용하겠다고 공언했다. 새롭게 추가한 인공지능(AI) 서비스도 대거 선보였다. 구글은 제미나이를 오픈AI의 '챗GPT' 대항마로 발전시켜 글로벌 생성 AI 서비스 시장을 선점하겠다는 포석이다. 이에 앞서 생성 AI 서비스 포문을 연 오픈AI는 새로운 AI 모델 'GPT-포오(4o)' 개발을 알렸다. 세계적인 빅테크 기업인 구글이 생성 AI 선두 주자로 꼽히는 스타트업 오픈AI를 맹추격할 수 있을지에 관심이 쏠린다.
 
구글·오픈AI, 비슷한 내용·다른 형식 답변
'방탄소년단(BTS) 매력은 무엇인가'라는 질문에 대한 오픈AI 'GPT-4o'(왼쪽)와 구글 '제미나이 어드밴스드' 답변 화면 갈무리. 제공하는 정보 내용은 비슷하지만 안내하는 방식에서 약간 차이를 보였다.

20일 정보기술(IT) 업계에 따르면 빅데이터 강자인 구글과 생성 AI 원조인 오픈AI가 비슷한 시기에 업그레이드 버전 LLM과 AI 서비스를 각각 공개했다. 두 서비스는 어떻게 다를까. 사용자 입장에서 두 모델에 어떤 차이가 있는지 실험해 봤다. 구글 제미나이 유료 버전인 '제미나이 어드밴스드'와 마찬가지로 유료인 오픈AI GPT-4o에 동일한 질문과 요구를 던졌다.

'방탄소년단(BTS) 매력은 무엇인가'라는 질문에 대해 제미나이와 GPT-4o 모두 BTS의 개성, 사회적 영향력 등 카테고리를 나눠 비슷한 정보를 제공했다. 안내하는 방식은 약간 차이를 보였다. 제미나이 답변은 빅데이터 보유 기업답게 정보 제공 중심이었다. 반면 GPT-4o는 비슷한 내용을 공통으로 묶는 방식으로 이해력을 높이는 데 힘을 실었다.

제미나이 어드밴스드 답변은 △짧게 △길게 △간결하게 △캐주얼하게 △전문적으로 등 총 다섯 가지 버전으로 안내했다. 길게 버전에서 BTS 매력은 크게 음악·멤버·사회적 측면으로 나뉘었다. 이후 정보 중심적으로 나열하는 방식으로 전개됐다. 음악적인 측면 매력엔 진정성 있는 가사와 장르 다양성, 퍼포먼스가 포함됐다. 7명 멤버들 개성 측면에서는 각자 독특한 매력과 재능 보유, 멤버 간 케미스트리(화학적 결합), 팬 사랑 등을 꼽았다. 그 밖에 선한 영향력, 글로벌 인기, 끊임없는 성장을 매력 포인트로 지목했다.

GPT-4o가 답한 BTS 매력은 크게 여섯 가지다. 음악과 가사, 퍼포먼스, 개인적인 매력, 팬과의 소통, 긍정적인 메시지, 사회적 영향력이다. 각 매력엔 2~3개 문장으로 이뤄진 간략한 설명이 함께 안내됐다.

BTS 멤버들 근황을 묻는 말에선 정보 제공 중심인 제미나이와 이해력에 강점을 가진 GPT-4o 차이가 더 극명하게 드러났다. 제미나이는 우선 '개인 활동에 집중하며 다양한 분야에서 두각을 나타내고 있다'는 문구를 안내했다. 이어 '진·제이홉: 군 복무 중이며 최근 훈련소 사진이 공개돼 팬들을 안심시켰다' 등 각 멤버 근황을 알렸다.

같은 질문에 GPT-4o는 '멤버들이 개인 활동과 군복무를 병행하고 있다'는 사실을 알린 뒤 멤버 'RM·지민·뷔·정국: 2023년 12월 군 복무와 솔로 음악 작업, 활동을 병행하고 있다'는 식으로 공통 분모를 묶어 안내했다.
 
제미나이에 GPT-4o와 차이 물었더니···일부 오류
이미지 생성 요청에 대한 Chat GPT 4o(왼쪽·가운데)와 제미나이 결과물 화면 캡처. 두 모델에 'BTS 캐리커처'와 '사랑이란 감정을 그림으로 구현해 달라'고 요청하니 GPT 4o 두 가지 요청에 각각 30초 이내에 이미지가 생성됐다. 반면 제미나이는 "이 언어로 지원되는 제미나이 이미지 생성 기능을 개선하기 위해 노력 중"이라는 문구가 제시됐다. 

제미나이 어드밴스드와 GPT-4o에 '구글 제미나이와 오픈AI GPT-4o 차이점은 무엇인가'라는 질문을 했다. 제미나이는 모델별로 개발과 특징을 제시했다. GPT-4o는 기술적 접근 방식과 데이터, 기능, 목표 등 모두 네 가지 종류로 구분한 후 두 모델별로 설명했다.

GPT-4o는 제미나이에 대해 글자(텍스트)뿐 아니라 이미지, 비디오 등 다양한 형태의 데이터를 처리할 수 있는 모델이라고 안내했다. 반면 GPT-4o는 텍스트 기반 언어로 사람과 유사한 대화 능력을 갖추고 있고, 텍스트 생성·번역·요약 등 작업에서 우수한 성능을 보인다고 했다. 이어 제미나이는 사용자가 더 풍부한 인터랙티브(양방향) 경험을 하는 것에, GPT-4o는 인간과 유사한 언어 모델을 개발해 다양한 산업 분야에서 활용할 수 있는 것에 중점을 두고 있다고 덧붙였다.

제미나이는 GPT-4o에 대해 '자연어 처리 작업(텍스트 생성·번역·요약 등)에 특화된 모델'이라고 명시했다. 텍스트 입력을 기반으로 사람과 유사한 문구를 생성할 수 있다는 것을 특징으로 안내했다. 뛰어난 언어 이해 능력과 창의적인 텍스트 생성 능력을 보여주며, 유료 버전에선 더 빠르고 안정적인 서비스를 이용할 수 있다고도 설명했다.

추가로 제미나이는 아직 개발 중이지만 텍스트·이미지·음성·영상 등 여러 유형의 정보를 활용하는 멀티모달(multi modal) AI 시스템을 목표로 하기 때문에 텍스트뿐 아니라 이미지 생성 등 다양한 작업을 수행할 것으로 기대된다고 했다. GPT-4o는 이미 출시돼 뛰어난 텍스트 생성 능력을 보여주지만 이미지 생성과 같은 멀티모달 작업은 불가능하다고 평가했다. 

하지만 이미지 생성 요청에 실제로 이미지를 제시한 것은 GPT-4o였다. 두 모델 모두에 'BTS 캐리커처'와 '사랑이란 감정을 그림으로 구현해 달라'고 요청하니 제미나이는 "이 언어로 지원되는 제미나이 이미지 생성 기능을 개선하기 위해 노력 중"이라는 문구만 떴다. 반면 GPT-4o 각각 30초 이내로 두 가지 요청에 관한 이미지를 만들어 보여줬다.
 
청각·시각도 읽는다···오픈AI가 구현한 '그녀'
미라 무라티 오픈AI 최고기술책임자(CTO)가 지난 13일(현지시간) 온라인 신제품 발표 행사에서 발언하고 있다. [사진=오픈AI 라이브 스트림 캡처]

구글 연례 개발자 회의(I/O) 하루 전에 오픈AI는 기습적으로 온라인 신제품 발표 행사를 열었다. 지난 13일(현지시간) 열린 이날 행사에서 오픈AI는 사용자 표정을 읽고 실시간으로 질문에 답하고 통역하는 새로운 AI 모델 GPT-4o를 공개했다.  

GPT-4o의 'o'는 '옴니모델'을 의미한다. 옴니(omni)는 라틴어로 '모든'이란 뜻을 지니고 있다. 50개 언어를 처리할 수 있어 실시간 번역 외에 스마트폰 카메라를 이용해 사람 표정이나 그래프를 읽을 수도 있다. 오픈AI는 멀티모달을 넘어 텍스트는 물론 청각과 시각으로 입력된 정보를 추론하고 실시간으로 그 결과를 제공한다는 목표다. 

GPT-4o는 응답 시간이 획기적으로 줄었다. 사용자 질문을 받은 GPT-4o의 응답 속도는 평균 320ms(최소 232ms)다. 마치 사람과 대화하는 것처럼 자연스럽다는 평가가 나오는 이유다. 여기에 사람의 감정과 표정까지 인식할 수 있어 더욱 자연스럽다.

미라 무라티 오픈AI 최고기술책임자(CTO)는 이날 "사용 편의성 측면에서 큰 진전이 이뤘다고 생각하는 것은 이번이 처음"이라고 언급하며, GPT-4o가 텍스트·비디오·오디오 기능이 향상돼 기존 버전보다 훨씬 빠르다고 강조했다. 오픈AI는 GPT-4o가 지난해 11월 공개한 GPT-4 터보 모델보다 두 배 더 빠르게 응답하고, 작동 비용은 절반 수준이라고 설명했다.

해당 서비스가 공개된 후 외신들은 GPT-4o가 AI와 사람이 감정을 나누는 영화 '그녀(her)'에 나오는 AI와 유사하다고 보도를 쏟아냈다. 그녀는 AI와 사랑에 빠진 남성의 이야기를 다룬 2013년 작품이다. 샘 올트먼 오픈AI 최고경영자(CEO)도 지난해 이 영화에서 AI 개발에 대한 영감을 얻었다고 말한 적이 있다. 이날도 본인 사회관계망서비스 X(옛 트위터)에 'her'라는 글을 올렸다.
 
구글, 제미나이 등에 업고 오픈AI 맹추격 예고
순다르 피차이 구글 최고경영자(CEO)가 14일(현지시간) 미국 캘리포니아주 마운틴뷰 쇼어라인 엠피시어터에서 열린 '구글 연례 개발자 회의(I/O)'에서 발언하고 있다. [사진=AP·연합뉴스]

구글은 지난 14일(현지시간) 미국 캘리포니아주 마운틴뷰 쇼어라인 엠피시어터에서 열린 '구글 연례 개발자 회의(I/O)'에서 최신 AI 모델인 제미나이를 응용한 여러 AI 서비스를 공개했다. 텍스트·음성·이미지 등을 처리할 수 있는 AI 비서도 선보였다. 하루 전 오픈AI가 사용자 표정을 읽고 실시간 대화를 하는 AI 비서를 내놓은 것에 응수한 것이다.

구글은 제미나이를 태생부터 멀티모달, 텍스트·이미지·비디오·코드 등 현존하는 가장 광범위한 AI 모델이라고 했다. 구글은 제미나이 1.5프로가 기존 프로 버전보다 정보를 동시 처리할 수 있는 능력이 늘었다고 설명했다. 일부 개발자·클라우드 고객 대상이긴 하지만, 모델 토큰 처리량이 100만에서 200만으로 늘었다는 부연이다. 

이날 구글은 텍스트로 동영상을 생성하는 비오, 텍스트로 사진을 생성하는 이마젠의 최신 버전 이마젠3, AI로 음악을 만들 수 있는 리리아도 함께 공개했다. 특히 주력 AI인 제미나이 1.5 프로 모델의 업그레이드 버전인 '제미나이 1.5 플래시'도 선보였다. 

구글을 앞으로 자연스러운 일상 대화가 가능한 제미나이 라이브 등 일상에서 자연스럽고 편하게 이용할 수 있는 서비스를 대거 선보일 예정이다.

제미나이 라이브를 몇 달 안에 출시할 계획이다. 이 서비스는 구글의 최첨단 음성 모델을 기반으로 제미나이와 더욱 직관적으로 대화할 수 있는 새로운 대화 환경을 제공하는 것으로 목표로 한다. 일반적인 대화 속도로 말하거나 제미나이가 응답하는 도중에 질문을 던지는 등 일상 속 대화처럼 자유롭게 소통할 수 있도록 한다는 방침이다. 

멀티모달 AI 에이전트를 향한 비전을 담은 프로젝트 아스트라의 일부 기능은 연내 제미나이 애플리케이션(앱) 등을 자사 제품에 선보일 예정이다. 프로젝트 아스트라는 텍스트·이미지· 영상·음성 등 다양한 정보를 이해하고 처리하는 능력을 갖춘 AI 에이전트를 개발하는 프로젝트다. 특히 음성 모델을 활용해 자연스러운 대화와 빠른 반응 속도를 구현하는 데 집중했다. 구글은 이러한 멀티모달 기술을 기반으로 모바일 기기나 스마트 안경을 통해 언제 어디서든 전문적인 도움을 제공하는 미래 AI 비서를 구현한다는 포석이다.