모레, 한국어 파운데이션 모델 '모티프' 오픈소스 공개

2024-12-03 18:04

[사진=모레]
AI 인프라 솔루션 기업 '모레'는 자체 개발한 한국어 초거대언어모델(LLM) 파운데이션 모델인 '모티프(Motif·Llama-3-Motif-102B)'를 허깅페이스에 오픈소스로 공개한다고 3일 밝혔다.

'모티프'는 파라미터(매개변수) 1020억개에 달하는 한국어 LLM이다. 회사 측에 따르면 한국판 AI 성능 평가 체계인 'KMMLU' 벤치마크에서 오픈AI의 GPT4보다 높은 점수를 받았다. 모티프는 64.74점을 획득해 메타나 구글, 네이버의 LLM 보다도 뛰어난 한국어 처리 성능을 입증했다고 밝혔다.

회사 관계자는 "토큰 기준으로 1870억 개에 달하는 방대한 양의 한국어 학습량과 독자적인 학습 기법으로 LLM을 구성했다"고 말했다. 웹상에서 수집 가능한 글뿐만 아니라 공개된 전문 분야 문서를 학습 데이터로 활용했다. 또 국내 최대 규모의 한국어 정제 데이터도 확보해 학습했다고 설명했다. 

모티프는 사전 훈련된 언어모델과 지시사항을 따르는 데 특화된 인스트럭트 모델 2가지 버전으로 공개된다. 둘 다 오픈소스다. 회사 측은 "고성능 한국어 LLM을 오픈소스로 배포해 한국 AI 생태계 성장에 기여하겠다"며 "이를 위해 AI 모델 사업 본격 추진을 위한 자회사도 설립할 예정"이라고 강조했다.

한편 모레는 올해 초 영어 LLM인 'MoMo-70B'도 선보인 바 있다. 해당 모델은 700억개의 파라미터로 구성됐으며 허깅페이스의 '오픈 LLM 리더보드' 평가에서 77.29점을 기록하며 글로벌 1위에 오른 바 있다. 여기서 얻은 노하우를 바탕으로 '모티프'를 개발했다는 것이 회사 측의 설명이다.

조강원 모레 대표는 "독보적인 기술력을 바탕으로 끝없는 실험과 개발 여정을 통해 개발한 고성능 LLM을 누구나 활용할 수 있도록 오픈소스로 공개하는 것은 무엇보다 국내 AI 생태계가 보다 발전적인 방향으로 성장하고, 소버린 AI에 기여하기 위함이다"라고 말했다. 조 대표는 그러면서 "국내 AI 산업 발전을 위해 노력하는 스타트업 등 많은 기업들이 (모티프를) 적극 활용하면 좋겠다"고 강조했다.

모레는 향후 의료, 법률, 금융 등 전문 영역에 특화된 LLM을 개발하고 멀티모달형 모델 개발에 나서는 등 AI 모델 허브를 목표로 사업을 추진한다는 계획이다.