SKT, 국립국어원과 AI 언어능력평가대회 개최
2021-09-01 09:22
기본 언어 모델·우리말 데이터세트 제공…우리말 이해·분석 능력 평가
SKT는 우리말 인공지능(AI) 언어모델 개발 역량 향상과 국어 정보화 저변 확대를 위해 국립국어원·문화체육관광부와 함께 ‘인공지능 언어 능력 평가 대회’를 개최한다고 1일 밝혔다.
대회는 이날 오후 SKT의 기본 AI 언어모델과 국립국어원의 평가 데이터 세트 공개와 함께 시작된다. 참가자는 오는 15일부터 11월 1일까지 결과물을 수시로 업데이트해 제출할 수 있다.
이번 대회는 개인 또는 팀으로 누구나 참가할 수 있다. 참가팀 중 대상(문화체육관광부 장관상), 금상·은상·동상, 특별상을 선정한다. 수상자 전원에게는 매년 SKT가 개최하는 AI 펠로우십의 서류 심사 면제 특권도 제공할 계획이다.
참가자들은 제공된 언어 모델 등을 기반으로 각각의 AI 언어모델 프로그램을 개발하여 우리말을 이해하고 분석하는 능력을 평가받는다. 제출된 언어모델을 평가하는 과제는 4가지다. 문장의 문법 오류 판단하기(문장 적법성 판단), 맥락별 단어 의미 구별하기(동형이의어 구별), 문장 읽고 원인 추론하기(인과 관계 추론), 제시문 읽고 질문에 예·아니오 답하기(판정 의문문) 등이다.
이번 평가는 지금까지 한국어 인공지능 모델 평가를 위해 공개된 데이터 세트보다 난이도가 다소 높은 내용으로 구성됐다.
SKT에서 제공하는 언어모델은 매개 변수가 12억개인 모델이다. 지난해 공개한 KoGPT2 모델보다 약 8배 크다. 이는 SKT가 국립국어원과 진행하고 있는 한국어 범용언어모델(GLM) 연구 과제의 초기 산출물이다. 기존에 SKT가 개발해 발표한 KoBERT, KoGPT2, KoBART 모델에 이어 한국어 AI 모델을 개발·활용하고자 하는 이들에게 도움이 될 것으로 기대된다.
에릭 데이비스 SKT Language Superintelligence Labs장은 “SKT와 국립국어원이 협업하여 준비한 이번 경진대회가 언어와 AI에 대한 역량을 맘껏 펼치는 장이 되길 기대한다”며 “나아가 이러한 건전한 경쟁이 범용언어모델을 비롯한 한국어 언어모델의 발전과 국어 정보화 확산에 기여하길 바란다”고 말했다.
이승재 국립국어원 언어정보과장은 “국립국어원은 전문적인 말뭉치 수집 및 분석 역량을 바탕으로 올해부터 인공 지능 언어 능력 평가용 자료를 구축하여 시장에 지속적으로 공급할 예정이고, 민간의 높은 요구를 반영하여 인공 지능의 한국어 능력을 다양한 영역에서 평가할 수 있는 체계를 단계적으로 만들어나갈 것“이라고 말했다.
대회는 이날 오후 SKT의 기본 AI 언어모델과 국립국어원의 평가 데이터 세트 공개와 함께 시작된다. 참가자는 오는 15일부터 11월 1일까지 결과물을 수시로 업데이트해 제출할 수 있다.
이번 대회는 개인 또는 팀으로 누구나 참가할 수 있다. 참가팀 중 대상(문화체육관광부 장관상), 금상·은상·동상, 특별상을 선정한다. 수상자 전원에게는 매년 SKT가 개최하는 AI 펠로우십의 서류 심사 면제 특권도 제공할 계획이다.
참가자들은 제공된 언어 모델 등을 기반으로 각각의 AI 언어모델 프로그램을 개발하여 우리말을 이해하고 분석하는 능력을 평가받는다. 제출된 언어모델을 평가하는 과제는 4가지다. 문장의 문법 오류 판단하기(문장 적법성 판단), 맥락별 단어 의미 구별하기(동형이의어 구별), 문장 읽고 원인 추론하기(인과 관계 추론), 제시문 읽고 질문에 예·아니오 답하기(판정 의문문) 등이다.
이번 평가는 지금까지 한국어 인공지능 모델 평가를 위해 공개된 데이터 세트보다 난이도가 다소 높은 내용으로 구성됐다.
SKT에서 제공하는 언어모델은 매개 변수가 12억개인 모델이다. 지난해 공개한 KoGPT2 모델보다 약 8배 크다. 이는 SKT가 국립국어원과 진행하고 있는 한국어 범용언어모델(GLM) 연구 과제의 초기 산출물이다. 기존에 SKT가 개발해 발표한 KoBERT, KoGPT2, KoBART 모델에 이어 한국어 AI 모델을 개발·활용하고자 하는 이들에게 도움이 될 것으로 기대된다.
에릭 데이비스 SKT Language Superintelligence Labs장은 “SKT와 국립국어원이 협업하여 준비한 이번 경진대회가 언어와 AI에 대한 역량을 맘껏 펼치는 장이 되길 기대한다”며 “나아가 이러한 건전한 경쟁이 범용언어모델을 비롯한 한국어 언어모델의 발전과 국어 정보화 확산에 기여하길 바란다”고 말했다.
이승재 국립국어원 언어정보과장은 “국립국어원은 전문적인 말뭉치 수집 및 분석 역량을 바탕으로 올해부터 인공 지능 언어 능력 평가용 자료를 구축하여 시장에 지속적으로 공급할 예정이고, 민간의 높은 요구를 반영하여 인공 지능의 한국어 능력을 다양한 영역에서 평가할 수 있는 체계를 단계적으로 만들어나갈 것“이라고 말했다.