초거대 인공지능(AI)은 기존 AI 기술의 판도를 바꾸는 신개념 기술이다. 이전과는 비교할 수 없는 압도적 성능의 인프라를 바탕으로 수천억 개의 매개변수(파라미터)를 구축·학습하고, 이를 통해 인간처럼 사고하는 것이 특징이다.
이미 국내외 많은 기업이 초거대 AI 구축을 위해 컴퓨팅 인프라를 확보하고, 매개변수를 늘리는 등 연구와 서비스 개발을 본격화하고 있다. 2020년 이전만 하더라도 100억개 내외의 매개변수를 가진 AI 모델이 대부분이었으나, 불과 1년 만에 매개변수는 수천억 개로 늘었다.
오픈AI는 2032년까지 매개변수 100조개를 갖춘 GPT-4를 선보일 계획이다. 이는 GPT-3의 500배 이상이다. 의학계에서는 인간의 뇌가 1000억개의 뉴런과 100조개의 시냅스로 구성된 것으로 보고 있다. 시냅스와 유사한 역할을 하는 매개변수가 인간 수준으로 늘어난다면 인간처럼 사고하는 AI 등장도 기대할 수 있다.
딥마인드는 지난해 12월 매개변수 2800억개의 고퍼(Gopher)를 선보였다. 특징적인 부분은 매개변수 효율화다. 모델 크기를 키우는 방식과 달리, 학습 효율을 높이는 방식으로 타사보다 적은 매개변수로 높은 성능을 낸다는 전략이다. 업계에 따르면 고퍼는 고등학생 수준의 언어 독해력을 갖췄으며, 팩트체크와 유해한 언어를 걸러내는 성능도 대폭 강화된 것으로 알려졌다.
MS와 엔비디아는 자연어 생성 모델 메가트론-튜링을 지난해 10월 선보였다. 매개변수는 무려 5300억개다. 방대한 매개변수 활용을 위해 양사는 4480개의 그래픽 프로세서로 서버를 구축했다. 학습에 쓰인 텍스트 데이터는 무려 825GB다. MS에 따르면 메가트론-튜링은 번역, 상식적인 추론, 자연어 인식 등이 특징이며, 향후 더 많은 분야에 적용할 계획이다.
중국 역시 초거대 AI 확보에 나서고 있다. 베이징 AI 아카데미 주도로 개발한 우다오 2.0은 1조7500억개의 매개변수를 갖췄다. 지난해 6월 공개된 우다오 2.0의 전문분야는 창작이다. 시를 쓰고, 그림을 이해하고, 레시피를 만드는 데이터로 사전 훈련했다. 학습에는 4.9TB 분량의 이미지와 텍스트 데이터가 쓰였다. 화웨이도 지난해 5월 2000억개 매개변수를 갖춘 판구 알파를 선보였으며, 중국어로 된 전자책, 백과사전, 뉴스, 소셜미디어 등에서 80TB 데이터를 확보해 훈련하고, 오픈소스 형태로 공개했다.
국내 기업도 초거대 AI 구축에 적극적이다. 네이버는 지난해 5월 2040억개 매개변수를 갖춘 하이퍼클로바를 상용화하고, 자사의 서비스에 적용 중이다. 특히 한국어에 특화한 모델로, 이를 검색 서비스나 쇼핑은 물론, 클로바노트, AI페인터 등 일상용 서비스에 초거대 AI를 적용 중이다.
카카오는 지난해 12월 300억개 매개변수를 갖춘 한국어 모델 '민달리(minDALL-E)'를 공개했다. 한국어 구사를 넘어, 명령대로 그림을 그려주는 AI다. 카카오에 따르면 내부적으로는 매개변수 6000억개에 도달했지만, 외부 공개 서비스로 우선 경량화한 모델을 선보였다는 설명이다.
LG AI연구원은 매개변수 3000억개 규모로 개발한 인공지능 '엑사원'을 공개하고, 여러 분야 기업과 연합하며 모든 산업에서 상위 1%의 전문가 AI를 만들겠다고 밝혔다. 여기에는 구글, 우리은행 등 국내외 전자·통신·금융·의료 분야 13개 기업·기관이 참여한다. 최근 뉴욕 패션위크에서 데뷔한 디지털 휴먼 '틸다' 역시 이러한 연구의 산물이다. 데이터로만 존재하던 AI가 형체를 가지고, 스스로 디자인한 작품을 인간에게 선보인 셈이다.
이미 국내외 많은 기업이 초거대 AI 구축을 위해 컴퓨팅 인프라를 확보하고, 매개변수를 늘리는 등 연구와 서비스 개발을 본격화하고 있다. 2020년 이전만 하더라도 100억개 내외의 매개변수를 가진 AI 모델이 대부분이었으나, 불과 1년 만에 매개변수는 수천억 개로 늘었다.
오픈AI는 2032년까지 매개변수 100조개를 갖춘 GPT-4를 선보일 계획이다. 이는 GPT-3의 500배 이상이다. 의학계에서는 인간의 뇌가 1000억개의 뉴런과 100조개의 시냅스로 구성된 것으로 보고 있다. 시냅스와 유사한 역할을 하는 매개변수가 인간 수준으로 늘어난다면 인간처럼 사고하는 AI 등장도 기대할 수 있다.
딥마인드는 지난해 12월 매개변수 2800억개의 고퍼(Gopher)를 선보였다. 특징적인 부분은 매개변수 효율화다. 모델 크기를 키우는 방식과 달리, 학습 효율을 높이는 방식으로 타사보다 적은 매개변수로 높은 성능을 낸다는 전략이다. 업계에 따르면 고퍼는 고등학생 수준의 언어 독해력을 갖췄으며, 팩트체크와 유해한 언어를 걸러내는 성능도 대폭 강화된 것으로 알려졌다.
중국 역시 초거대 AI 확보에 나서고 있다. 베이징 AI 아카데미 주도로 개발한 우다오 2.0은 1조7500억개의 매개변수를 갖췄다. 지난해 6월 공개된 우다오 2.0의 전문분야는 창작이다. 시를 쓰고, 그림을 이해하고, 레시피를 만드는 데이터로 사전 훈련했다. 학습에는 4.9TB 분량의 이미지와 텍스트 데이터가 쓰였다. 화웨이도 지난해 5월 2000억개 매개변수를 갖춘 판구 알파를 선보였으며, 중국어로 된 전자책, 백과사전, 뉴스, 소셜미디어 등에서 80TB 데이터를 확보해 훈련하고, 오픈소스 형태로 공개했다.
국내 기업도 초거대 AI 구축에 적극적이다. 네이버는 지난해 5월 2040억개 매개변수를 갖춘 하이퍼클로바를 상용화하고, 자사의 서비스에 적용 중이다. 특히 한국어에 특화한 모델로, 이를 검색 서비스나 쇼핑은 물론, 클로바노트, AI페인터 등 일상용 서비스에 초거대 AI를 적용 중이다.
카카오는 지난해 12월 300억개 매개변수를 갖춘 한국어 모델 '민달리(minDALL-E)'를 공개했다. 한국어 구사를 넘어, 명령대로 그림을 그려주는 AI다. 카카오에 따르면 내부적으로는 매개변수 6000억개에 도달했지만, 외부 공개 서비스로 우선 경량화한 모델을 선보였다는 설명이다.
LG AI연구원은 매개변수 3000억개 규모로 개발한 인공지능 '엑사원'을 공개하고, 여러 분야 기업과 연합하며 모든 산업에서 상위 1%의 전문가 AI를 만들겠다고 밝혔다. 여기에는 구글, 우리은행 등 국내외 전자·통신·금융·의료 분야 13개 기업·기관이 참여한다. 최근 뉴욕 패션위크에서 데뷔한 디지털 휴먼 '틸다' 역시 이러한 연구의 산물이다. 데이터로만 존재하던 AI가 형체를 가지고, 스스로 디자인한 작품을 인간에게 선보인 셈이다.
국가 기술역량 결집, 정부·학계도 초거대 AI 생태계 활성 나서
대한상공회의소에 따르면 초거대 AI를 위해 선행돼야 할 과제는 크게 슈퍼컴퓨터, 빅데이터, 인재 양성 등이다. AI 성능 향상의 핵심인 매개변수를 늘리기 위해 이러한 정보를 처리할 수 있는 슈퍼컴퓨터 인프라가 필수적이며, 고도화한 학습을 위해 정제된 빅데이터도 필요하다. 여기에 모델 학습 과정에서 발생할 수 있는 개인정보 보호와 저작권 문제가 발생하지 않도록 안전장치도 마련해야 한다.
정부는 글로벌 기술패권 경쟁시대에 우리나라가 기술주권 확보를 위해 모든 역량을 집중해야 할 분야 10가지를 선정했다. AI 역시 10대 필수전략기술 중 하나로 선정됐다. 미국과 중국 등 기술패권 국가를 중심으로 AI 민족주의가 확대되는 가운데 주요 국가와 기술교류가 차단되면 경제적·안보적 위협이 커질 수 있기 때문이다. 특히 한국 환경에 맞는 AI를 구축하고, 자율주행 등 신산업 분야에서 앞서기 위해 AI 연구가 필수적이다.
과학기술정보통신부가 최근 발표한 자료에 따르면 네이버, LG, SKT, KT 등 국내 주요 기업과 학계는 지난해부터 초거대 AI 개발을 위한 연구소 설립과 대규모 투자를 진행했다. 네이버는 서울대, KAIST 등과 연구센터를 공동 설립했으며, 카카오는 한국어 언어모델 KoGPT와 이미지 생성모델 민달리를 공개했다.
LG는 AI연구원 설립 후 2021년부터 3년간 1200억원을 투자할 계획을 밝혔으며 초거대 AI 엑사원도 공개했다. SKT는 국립국어원과 협력해 1500억개 매개변수를 갖춘 한국어 특화 초거대 AI 모델 'GLM' 개발을 추진했고, KT도 KAIST와 함께 기술연구소를 설립해 초거대 AI를 공동 개발하는 계획을 발표했다.
특히 인공지능 분야에서도 인공지능 원팀(KT, LG전자, ETRI)과 인공지능 연구개발 협의체(SKT, 삼성전자, 카카오)를 구성하는 등 기업 간 연대 협력이 강화되는 추세다. 정부는 이러한 기업 투자 추세에 발맞춰 국내 생태계를 육성하고, 기술 경쟁을 선도할 수 있도록 지원책을 펼친다. 또 여기에 필요한 데이터는 정부가 구축하는 데이터 댐 프로젝트를 통해 제공할 계획이다.
우선 초거대 AI 활용 확산을 위해 주요 기업이 구축한 초거대 AI를 스타트업과 연계하고, 다양한 분야에서 아이디어를 발굴해 혁신 서비스를 개발할 수 있도록 할 계획이다. 이를 위해 주요 기업은 자사가 구축한 모델을 API 형태로 중소·스타트업에 제공하며, 정부는 이를 활용할 수 있는 컴퓨팅 자원을 지원한다. 또 공공 분야에서 보도자료나 공고문 작성 등에 초거대 AI를 적용하는 등 시범 서비스 수요를 창출한다.
제도 역시 개선한다. 초거대 AI는 대규모 데이터 활용이 필요하며, 이러한 데이터는 웹에서 얻는 경우가 많다. 하지만 이 과정에서 지식재산 침해가 발생할 수도 있다. 따라서 정부는 저작권법, 특허법, 개인정보보호법 등 관련 법제를 정비하고 데이터를 연구 목적으로 활용 시 발생할 수 있는 문제를 사전에 해결할 계획이다. 이와 함께 신산업 분야에서는 규제 샌드박스를 도입해 관련 서비스를 조기에 실증한다.
정부는 글로벌 기술패권 경쟁시대에 우리나라가 기술주권 확보를 위해 모든 역량을 집중해야 할 분야 10가지를 선정했다. AI 역시 10대 필수전략기술 중 하나로 선정됐다. 미국과 중국 등 기술패권 국가를 중심으로 AI 민족주의가 확대되는 가운데 주요 국가와 기술교류가 차단되면 경제적·안보적 위협이 커질 수 있기 때문이다. 특히 한국 환경에 맞는 AI를 구축하고, 자율주행 등 신산업 분야에서 앞서기 위해 AI 연구가 필수적이다.
과학기술정보통신부가 최근 발표한 자료에 따르면 네이버, LG, SKT, KT 등 국내 주요 기업과 학계는 지난해부터 초거대 AI 개발을 위한 연구소 설립과 대규모 투자를 진행했다. 네이버는 서울대, KAIST 등과 연구센터를 공동 설립했으며, 카카오는 한국어 언어모델 KoGPT와 이미지 생성모델 민달리를 공개했다.
LG는 AI연구원 설립 후 2021년부터 3년간 1200억원을 투자할 계획을 밝혔으며 초거대 AI 엑사원도 공개했다. SKT는 국립국어원과 협력해 1500억개 매개변수를 갖춘 한국어 특화 초거대 AI 모델 'GLM' 개발을 추진했고, KT도 KAIST와 함께 기술연구소를 설립해 초거대 AI를 공동 개발하는 계획을 발표했다.
특히 인공지능 분야에서도 인공지능 원팀(KT, LG전자, ETRI)과 인공지능 연구개발 협의체(SKT, 삼성전자, 카카오)를 구성하는 등 기업 간 연대 협력이 강화되는 추세다. 정부는 이러한 기업 투자 추세에 발맞춰 국내 생태계를 육성하고, 기술 경쟁을 선도할 수 있도록 지원책을 펼친다. 또 여기에 필요한 데이터는 정부가 구축하는 데이터 댐 프로젝트를 통해 제공할 계획이다.
우선 초거대 AI 활용 확산을 위해 주요 기업이 구축한 초거대 AI를 스타트업과 연계하고, 다양한 분야에서 아이디어를 발굴해 혁신 서비스를 개발할 수 있도록 할 계획이다. 이를 위해 주요 기업은 자사가 구축한 모델을 API 형태로 중소·스타트업에 제공하며, 정부는 이를 활용할 수 있는 컴퓨팅 자원을 지원한다. 또 공공 분야에서 보도자료나 공고문 작성 등에 초거대 AI를 적용하는 등 시범 서비스 수요를 창출한다.
제도 역시 개선한다. 초거대 AI는 대규모 데이터 활용이 필요하며, 이러한 데이터는 웹에서 얻는 경우가 많다. 하지만 이 과정에서 지식재산 침해가 발생할 수도 있다. 따라서 정부는 저작권법, 특허법, 개인정보보호법 등 관련 법제를 정비하고 데이터를 연구 목적으로 활용 시 발생할 수 있는 문제를 사전에 해결할 계획이다. 이와 함께 신산업 분야에서는 규제 샌드박스를 도입해 관련 서비스를 조기에 실증한다.