정부가 국내 인공지능(AI) 연구·산업 경쟁력을 끌어올리기 위해 민간에 필요한 슈퍼컴퓨터 자원과 데이터 구축을 일정부분 지원하고, 민간 기업들은 AI 경량화 기술과 한국어 AI 성능평가 기준을 마련해야 한다는 진단이 나왔다. 작년 미국에서 공개된 뒤 학계·업계 주목을 집중시킨 초대형 AI 모델 'GPT-3'와 같은 기술에 대응하기 위한 방안이다.
2일 한국지능정보사회진흥원(NIA) 발간 보고서 '초대규모 AI 모델(GPT-3)의 부상과 대응 방안'을 통해 GPT-3 모델의 특징과 주요 응용 사례를 소개하고, 국내 AI 분야 산·학·연 전문가 13명의 의견 수렴 결과를 바탕으로 이같은 흐름에 대응하기 위해 필요한 사항을 '컴퓨팅파워', '데이터', '모델·알고리즘', 3개 영역별로 제시했다.
GPT-3는 이 퓨샷러닝을 통해 타 모델의 '미세조정'으로 달성한 최고성능 신기록을 경신했다. 그 추론 기능을 응용해 자연어를 프로그래밍 언어로 바꿔 누구나 코딩을 할 수 있게 만드는 서비스와, 영화 대본을 작성하는 서비스 등이 만들어졌다. NIA 보고서는 "GPT-3같은 언어모델은 문서분류, 개체명 인식 등 다양한 과제에 응용될 수 있는 뼈대(백본) 역할을 맡는다"며 "GPT-3는 퓨샷러닝으로 압도적 성능을 보여주며 초대규모 모델의 우수성을 전세계에 각인시켰다"고 평가했다.
국내 전문가들은 GPT-3와 같은 초대형 AI모델이 등장하면서 기업과 학계의 AI 연구에서도 컴퓨팅파워, 데이터, 모델·알고리즘에 특정 요소들의 중요성이 인식되고 있다고 판단했다.
우선 컴퓨팅파워의 중요성은 AI 학습시간을 단축시키고 추론성능을 끌어올리는 데 필요하기 때문에 부각되고 있다. 오픈AI와 글로벌 클라우드 2위 기업 MS는 협력 관계를 맺었는데, 이는 MS가 오픈AI의 연구를 지원할 클라우드 자원을 제공하고 오픈AI의 GPT-3를 클라우드 기반 API 방식이 아니라 모델 자체로 활용할 수 있는 라이선스를 확보하면서 더욱 긴밀해졌다. 이처럼 민간기업간의 협업 또는 정부주도의 슈퍼컴퓨팅 센터 구축과 같은 움직임이 나타나고 있다.
국내 전문가들은 이에 대응해 한국에서도 정부의 그래픽처리장치(GPU) 지원사업 유휴자원 등을 분석하고 초대규모 모델 개발을 지원할 가능성이 있는지 여부 등을 확인할 필요가 있다고 지적했다. 민간클라우드 기업과의 협업을 통해 슈퍼컴퓨터 지원 전략을 마련하고, 모델을 만드는 과정에서 학습만 지원하는 게 아니라 과제를 수행하는 추론 기능도 지원하는 방안을 제시했다. 현재 정부가 20~40테라플롭스(TFLOPS) 규모의 자원을 지원하고 있지만 GPT-3 수준 모델 학습에는 불충분하기 떄문이다.
다음으로 데이터의 중요성은 오픈AI가 3000억개 데이터셋이라는 대규모의 데이터 학습으로 성능향상을 실현했다는 점에 따라 두드러졌다. 이런 대규모 언어모델에 라벨링하지 않은 데이터셋을 활용한 비지도학습을 적용하는 방식을 통해 성능향상이 가능하다는 판단에 따라, 종전 대비 학습에 활용할 데이터셋 규모를 늘릴 수 있다면 사람의 수고가 많이 필요한 라벨링 작업의 부담은 완화될 수 있을 것으록 기대된다.
하지만 한국어 AI 언어모델을 개발하려면 라벨링 여부와 별개로 기본 데이터의 절대량이 더 늘어나야 한다. 인터넷의 기본 언어인 영어 기반 자료를 구하는 것에 비해 한국어로 만들어진 데이터를 충분한 규모로 확보하는 것이 불리하기 때문이다. 전문가들은 "기본 데이터의 절대적인 양이 부족하므로 일정 부분은 정부가 구축을 지원"하고 "초대규모 모델용 데이터는 보편적 특성, 일반 모델용 데이터는 도메인 특화에 초점을 맞춰 구축돼야 한다"고 봤다.
마지막으로 글로벌 AI 연구 환경에서 모델·알고리즘의 중요성은 개발된 초거대 AI 모델을 실제 서비스에 도입하기 위해 고려되고 있다. 연구분야에서는 AI의 성능과 가능성을 극대화하기 위해 모델이 대형화하고 있지만 이를 실제 활용하기 위한 서비스에서는 실용적인 속도와 규모로 처리될 필요가 있기 때문에 경량화가 중요하다. 또 각국 언어권의 실용화를 위해 영어 외의 지역 언어로 성능을 평가할 수 있는 기준도 필요해진 상황이다.
이 보고서에서 전문가들은 "모델 대형화는 연구계 등에서 추진하고, 경량화 기술을 조기 확보해 사업화 기반을 마련하는 방향으로 대응해야 한다"고 조언했다. 또 자연어분야 성능평가에서 영어 언어모델 벤치마크 'GLUE'나 'SuperGLUE'와 같은 성능측정기준이 있듯이, 한국어 자연어이해 분야의 성능평가 기준이 마련될 필요가 있다고 지적했다. 이미 중국 등 해외에서는 자국어로 AI 모델 평가기준이 구축되고 있다.
보고서에 따르면 국내서는 글로벌 추세에 맞춰 민간 주도로 한국어 모델 벤치마크 데이터셋 구축이 추진되고 있다. 업스테이지AI, 네이버, 카카오, 뤼이드, 스캐터랩, 뉴스페퍼민트, KAIST, 서울대, 연세대, 경희대, 뉴욕대 소속의 NLP 분야 민간 엔지니어들이 개인 자격으로 데이터셋과 리더보드를 구축하려고 활동 중이다. 이런 민간 주도 움직임이 1회성으로 끝나지 않도록 정부가 보조금, 컴퓨팅 자원 등을 지원할 필요가 있다고 보고서는 첨언했다.