ETRI, 신경망 기반 소형언어모델 '이글' 공개…"한국어 처리 효율 탁월"

윤선훈 기자 2024-11-28 09:18

사진ETRI — ETRI 연구진이 한국어 생성형 언어모델 '이글'에 대해 논의하고 있는 모습. [사진=ETRI]

국내 연구진이 한국어 중심의 신경망 기반 소형 생성 언어모델을 개발해 오픈소스로 일반에 공개했다.

한국전자통신연구원(ETRI)은 한국어 기반 30억 파라미터(3B)급 신경망 기반 소형언어모델(SLM) '이글(Eagle)'을 개발해 허깅페이스 허브(HuggingFace Hub)에 공개했다고 28일 밝혔다.

ETRI에 따르면 연구진이 개발한 언어모델은 글로벌 빅테크 기업의 SLM보다 한국어 데이터 비중이 훨씬 높다. 또 글로벌 빅테크 기업의 SLM이 한국어 어휘를 음절이나 바이트 단위로 처리해 동일한 문장을 표현하는 데 더 많은 연산이 필요한 반면, ETRI의 모델은 더욱 나은 학습·추론 효율을 보인다는 설명이다.

실제 한국어로 주어진 숫자 연산을 수행하는 미세조정 실험에서, ETRI가 지난 4월 공개한 13억 파라미터 모델은 글로벌 기업 모델의 절반 수준 규모임에도 불구하고 특정 작업들에서 약 15% 더 높은 성능을 기록한 것으로 나타났다.

관련기사

국내 기업들이 기존에 공개한 한국어 중심 모델과도 차별화된다고 ETRI는 강조했다. 이들 모델은 질의응답 과업에 적합하게 조정된 기정렬 모델이라는 한계가 있다. 반면 ETRI의 공개 모델은 미세조정이 적용되지 않은 기초 모델로 제공된다. 기초 모델은 기정렬된 모델에 비해 새로운 목적의 과업에 추가 학습을 적용할 경우 응용모델의 기대 성능이 더 높다. 학습시간도 약 20% 내외로 단축돼 더 우수한 성능을 발휘한다.

연구진은 본 모델이 생성 AI 응용 개발 과정에서 연산 비용 부담을 느끼는 중소·중견 기업에 적합하다고 설명했다. 또 기초 모델에 특화된 용도를 반영해 추가 학습을 수행함으로써, 기업 자체의 맞춤형 기초 모델을 제작할 수 있는 연장 학습이 용이하다는 점도 강조했다.

ETRI 관계자는 "해외 빅테크 기업의 기초 모델에 비해 투여되는 컴퓨팅 자원의 한계로 학습량이 부족해 다양한 지식을 충분히 담지 못하는 단점을 극복하기 위해 노력하고 있다"며 "이를 위해 신경망 기초 모델이 개념 표현을 효과적으로 습득할 수 있도록 하는 추가 연구를 진행하고 있다"고 말했다.

ETRI는 기초 모델의 표현 품질을 예측할 수 있는 기술과 개념 단위로 조합해 추론할 수 있는 원천 기술도 함께 개발하고 있다. 연구진은 개발한 기초 모델을 바탕으로 개념 지식을 효과적으로 인출할 수 있는 능력과, 수학 문제나 여러 단계의 논리 전개가 필요한 복잡한 문제를 푸는 능력을 부여하는 기술을 개발 중이다. 이를 통해 기존의 SLM에서 어려웠던 복합 추론을 수행할 수 있도록 할 계획이다.

ETRI는 오는 2025년에는 70억 파라미터 규모의 모델과 사전 정렬을 통해 추가 학습 없이 사용자의 요청에 맞게 응답을 수행할 수 있는 모델도 순차적으로 공개할 예정이다.

권오욱 ETRI 언어지능연구실장은 "현재 공개된 언어모델들이 풍부한 자원을 기반으로 개발되지 않아서 모든 면에서 해외 우수 모델들보다 나을 수는 없지만, 상대적으로 작은 한국어 토종 모델이 필요한 산학연 여러 분야의 연구개발에 큰 도움이 되길 바란다"고 말했다.

한편 본 성과는 2023년부터 과학기술정보통신부와 정보통신기획평가원(IITP)의 지원을 받아 '사람처럼 개념적으로 이해·추론이 가능한 복합인공지능 원천기술 연구'의 일환으로 이뤄졌다.

기자 정보: 윤선훈; chakrell@ajunews.com

0개의 댓글

0 / 300

실시간 인기

오늘의 1분뉴스

포토

주요뉴스