KAIST, 멀티모달 LLM 개발…"시각 성능 GPT-4V보다 뛰어나"

2024-06-20 15:26

노용만 한국과학기술원(KAIST) 전기·전자공학부 교수 연구팀이 개발한 멀티모달 초대형언어모델(LLM) '콜라보' 시연 영상 [자료=KAIST]

한국과학기술원(KAIST)은 노용만 전기·전자공학부 교수 연구팀이 공개형 멀티모달 초대형언어모델(LLM)을 개발해 출시했다고 20일 밝혔다.
 
노 교수팀이 개발한 LLM은 '콜라보(CoLLaVO)'와 '모아이(MoAI)' 2종이다. 이들은 오픈AI 'GPT-4V' 등 기업에 비공개하고 있는 멀티모달 모델보다 시각 성능이 뛰어나다고 KAIST는 설명했다.

콜라보는 일차원적인 시각 구분 능력을 크게 높인 게 특징이다. 이미지 정보를 배경과 물체 단위로 분할하고, 배경·물체 정보를 멀티모달에 직접 넣는 '크레용 프롬프트'라는 기능을 탑재했다. 지난달엔 자연어처리(NLP) 분야에서 권위 있는 국제학회인 '전산언어학회(ACL Findings)' 승인을 획득했다. 

물체 존재·상태, 배경·텍스트 이해 등으로 상황을 판단하는 인지과학적인 요소에 영감을 받아 만든 모아이는 높은 장면 이해 기능을 갖췄다.

 
노용만 한국과학기술원(KAIST) 전기·전자공학부 교수 [사진=KAIST]

KAIST 미래국방 인공지능 특화연구센터와 전기·전자공학부가 지원한 이번 연구 성과는 세계 최대 인공지능(AI) 모델 플랫폼인 허깅페이스에서 '화제의 논문'으로도 꼽혔다.
 
노 교수는 "이번 멀티모달 모델이 허깅페이스 추천과 다양한 사회관계망서비스(SNS)를 통해 세계 연구자에게 알려지고 있다"고 소개하며 "공개형으로 출시한 만큼 멀티모달 LLM 발전에 이바지할 것"이라고 말했다.