업스테이지는 한국지능정보사회진흥원(NIA)와 공동으로 운영하는 '오픈 코(Ko)-LLM'이 12일부터 새로운 벤치마크를 적용한 시즌2로 전면 개편된다고 밝혔다. LLM을 평가하는 기준을 새롭게 바꾼다는 의미다.
오픈 Ko-LLM 리더보드는 지난해 9월 민관협력을 통해 개설된 국내 최대 개방형 한국어 초거대언어모델(LLM) 평가 체계다. 지난달 말 기준 산·학·연 각 분야에서 1700여개가 넘는 LLM 모델이 제출됐다.
새롭게 추가된 기준은 △Ko-GPQA(대학원 수준 추론) △Ko-위노그란데(상식 추론) △Ko-GSM8K (초등수학) △Ko-EQ-Bench(감성) △KorNAT-Social-Value(사회적 가치) 등 총 9개다.
업스테이지 측은 기존엔 LLM의 근본적 언어능력에 초점을 맞췄다면 새 시즌에선 문제해결력 등 실용적인 부분에 집중했다고 전했다. 이를 위한 지표를 촘촘히 구성해 고성능 모델의 옥석을 가려낼 수 있을 거란 기대다.
김성훈 업스테이지 대표는 "새롭게 개편된 리더보드를 통해 한국어 LLM 성능 평가의 기준점을 한 단계 더 높일 것으로 기대한다"며 "앞으로 업스테이지는 글로벌 표준을 뛰어넘는 국내 인공지능(AI) 생태계 강화에 앞잘 설 것"이라고 말했다.