챗GPT로 대표되는 생성형 인공지능(AI)이 주목받으면서 이에 근간이 되는 거대 언어모델(LLM·Large scale Language Model)에 대한 관심 역시 커졌다. 많은 AI 기업이 자체 개발해 학습시킨 LLM을 선보이는 것은 물론, 오픈소스를 기반으로 생성형 AI를 구축해 관련 서비스를 내놓고 있다. 다만 AI 수요기업 입장에선 고민이 많다. 서비스 고도화와 업무 효율화를 위해 도입하려 하지만, 보안이나 비용 문제가 큰 장벽이다. 이에 업계에선 경량 LLM(sLLM)을 통한 구축형 AI 서비스로 비용 문제를 해결하려는 시도가 이어지고 있다.
◆AI 인프라 투자는 성능과 직결... 구축·학습 비용 고민하는 기업들
LLM은 자연어로 된 일상 대화 형식의 질문에 대해 인간과 유사한 답을 내놓기 위해 훈련된 AI다. 방대한 양의 텍스트 데이터를 통해 훈련한 AI는 지식 정보를 알려주는 것은 물론, 긴 글을 빠르게 요약하거나 자연스러운 번역도 가능하다. 여기에 멀티모달(Multimodal) 기능을 더하면 사진이나 음성을 인식하거나 생성하는 것도 가능하다.
기업은 챗봇 등 고객과의 소통 채널에 활용해 고객 만족도를 높이거나, 문서 작성 등의 효율을 높일 수 있다. 특히 과거 직원들이 생산한 문서를 학습시켜두면 사용자가 과거 자료를 직접 살펴볼 필요 없이 주요 내용을 일목요연하게 알 수 있어 불필요한 업무가 줄어든다.
이처럼 LLM과 생성형 AI의 도입 효과는 크지만, 모든 기업이 쉽게 도입할 수 있는 것은 아니다. 대표적으로 거론되는 것은 보안 문제다. 외부 기업이 만든 클라우드 기반 LLM을 사용할 경우 주요 데이터를 해당 기업의 데이터센터로 보내야 한다는 점이 문제다. 데이터센터를 직접 구축하고 LLM을 운용할 경우 보안을 강화할 수 있지만 비용이 문제다. 생성형 AI 구동에 탁월한 성능을 내는 엔비디아 H100 그래픽카드(GPU)의 경우 불과 1년 사이에 수요가 늘고, 생산량이 수요를 따라가지 못하면서 가격이 1300만원 이상 폭등하기도 했다.
생성형 AI나 LLM의 매개변수(파라미터)와 학습 토큰 수가 꾸준히 증가하는 것도 기업에는 부담이다. 파라미터가 늘어나면 더 많은 정보를 기반으로 정확한 예측과 판단을 내릴 수 있고, 학습 토큰이 많으면 자연스러운 응답을 생성할 수 있다. 즉 LLM 규모는 성능과 직결된다. 하지만 파라미터와 토큰이 늘어날수록 모델이 복잡해져 학습이 어렵고, 연산 시간이 오래 걸린다. 이에 따라 모델이 커질수록 GPU 등 인프라 비용도 크게 늘어난다.
◆10분의 1 규모 모델도 동일한 성능... sLLM, 대안으로 주목
경량 LLM(sLLM)은 이러한 상황에서 주목받는 대안이다. 매개변수를 줄여 학습·운용 비용을 낮추고, 미세조정(파인튜닝)을 통해 정확도를 높인다. 세상 모든 정보가 기업에 필요하지 않기 때문에, 사업과 서비스에 필요한 특정 분야만 집중 학습시키는 것이다.
sLLM은 올해 초 메타가 자체 대형 언어모델 라마(LLaMA)를 공개하면서 주목받기 시작했다. 라마는 매개변수에 따라 4가지 버전으로 등장했는데, 이 중 가장 규모가 작은 모델인 '라마 7B'는 매개변수가 70억개다. 오픈AI가 만든 GPT-3의 매개변수 1750억개의 4%에 불과하다. 이처럼 매개변수가 적은 sLLM은 기존 LLM 대비 낮은 연산 성능으로도 구동할 수 있다. 기업의 고성능 하드웨어 기반 인프라 구축 부담을 줄이고. 운용 비용을 낮출 수 있는 것이 장점이다.
LLM은 모델 크기만큼 학습과 대형 서버 인프라 유지에 막대한 시간과 비용이 든다. 일례로 구글의 팜(PaLM)은 프로세서 4000개를 탑재한 슈퍼컴퓨터 2대로 두 달 가까이 모델을 학습시켰고, 오픈AI GPT-3는 초기 훈련 비용에만 약 132억원의 비용이 들었다. 연산과 냉각에 드는 전력 소모 역시 크다. 오픈AI의 경우 지난해 약 7140억원의 적자를 기록했는데, 막대한 인프라 유지비용이 든 것으로 풀이된다.
반면 sLLM은 학습에 드는 시간과 비용이 상대적으로 적다. 스탠퍼드대학교의 경우 라마 7B를 미세조정한 sLLM '알파카 7B(Alpaca 7B)'를 올해 3월 선보였다. 여기에는 엔비디아 H100 가격의 10분의 1 수준인 엔비디아 A100 GPU 8대가 쓰였으며, 5만2000개 데이터를 단 3시간 만에 학습 완료했다. 이처럼 적은 시간과 인프라만 이용했지만, 성능 자체는 GPT-3와 비등했다는 것이 스탠퍼드대 측 설명이다.
미국의 빅데이터 처리 솔루션 기업 데이터브릭스는 매개변수 60억개를 갖춘 오픈소스 모델 GPT-J를 기반으로 sLLM '돌리(Dolly)'를 개발했다. 이들의 설명에 따르면 약 5만개의 고품질 학습 데이터와 서버 1대를 이용해 챗GPT 수준의 언어 모델을 만들었는데, 학습 비용은 100달러(약 13만원)에 불과했다.
◆가벼워지는 AI 모델, 서버 벗어나 PC·모바일 기기로
경량화된 AI 모델은 장기적으로 스마트폰이나 노트북 등 휴대용 기기에서도 구동할 수 있다. 특히 AI 모델이 있는 서버와 통신할 필요 없이 데이터를 처리할 수 있어, 활용 영역도 넓어질 전망이다.
구글은 올해 5월 개최한 연례 개발자 회의 '구글 I/O'에서 기존 거대언어 모델 '팜'을 경량화한 팜2를 게코(Gecko), 오터(Otter), 바이슨(Bison), 유니콘(Unicorn) 등으로 세분화한다고 밝혔다. 이 중 게코는 모바일 기기에서도 충분한 성능을 낼 수 있다는 것이 구글 측 설명이다. 내부 테스트에서 삼성전자 갤럭시 스마트폰 최신 제품군에서 초당 20개 이상의 토큰을 생성했는데, 이는 일상적인 반응형 애플리케이션을 구동하기에 충분한 성능이라고 덧붙였다. 구글 어시스턴트 등의 AI 비서가 인터넷 연결 없이 사용자와 자연스럽게 대화할 수 있는 시대도 열릴 전망이다.
AI 스타트업 노믹AI도 일반 노트북에서 구동할 수 있는 sLLM 'GPT포올(GPT4ALL)'을 선보였다. 이들은 GPT-3.5를 이용해 질문과 답변 쌍(데이터셋)을 수집하고, 라마 7B 모델을 미세조정해 문서 작성이나 요약, 코드 작성 등 챗GPT의 주요 기능을 구현했다. 사용자가 입력한 데이터는 외부 서버가 아닌 개인 노트북에서 처리된다. 기존 LLM에서 우려하던 정보 유출 우려를 줄일 수 있는 것은 물론, 인터넷 연결이 불가능한 보안 구역에서도 활용 가능하다.
국내 AI 기업 코난테크놀로지가 선보인 LLM 역시 게임용 그래픽카드에서 구동할 수 있는 것이 강점이다. SK텔레콤(SKT)으로부터 지분투자를 받은 코난테크놀로지는 올해 8월, 자체 구축한 '코난 LLM'을 공개했다. 이 중 매개변수 131억개를 갖춘 코난 LLM 13B 버전은 엔비디아 200만원대 그래픽카드 RTX 3090으로도 운용할 수 있는 수준이다. 이러한 강점을 내세워 정보 유출 우려와 인프라 구축 부담을 느끼는 기업·기관을 공략한다는 계획이다.
이 밖에도 마인즈앤컴퍼니의 코딩 자동화 AI 'MNC 코드 어시스턴트', 스켈터랩스의 대화형 AI '벨라', 포티투마루의 기업용 정보검색 서비스 'LLM42' 등 국내 주요 AI 스타트업도 sLLM을 개발해 분야별 특화 서비스를 선보이고 있다.
◆정부도 AI 경량화 지원... 당대 최신 모델 100분의 1로 줄인다
우리나라도 LLM 등 초거대 AI 모델의 기술적 한계를 극복하기 위해 최적화와 경량화에 나선다. 과학기술정보통신부는 서울대학교 '초거대 AI 모델 및 플랫폼 최적화(CHAMP) 센터'를 선도연구센터(ERC) 지원사업으로 선정하고 140억5000만원을 지원한다. 여기에는 국비 135억원, 서울대 4억원, 모레 1억원 파두 5000만원 등이 투입된다.
CHAMP 센터는 초거대 AI 모델의 플랫폼, 알고리즘, 응용을 아우르는 전체적인 최적화를 통해 기술 한계를 극복하는 것이 목표다. 앞서 언급한 것처럼 초거대 AI는 막대한 인프라 투자와 거대한 모델이 필요하다. 즉 대기업이 아닌 이상 구축과 운용이 어렵다. 여기에 한국어로 된 학습 데이터 역시 영어 문화권과 비교해 적다는 점도 한계로 지적된다. 이에 따라 AI 경쟁 주도권은 미국 빅테크 기업으로 쏠리고 있다.
센터는 이러한 문제를 해결한다. 단계적으로 오는 2026년까지 오픈AI의 GPT-3.5와 동일한 성능을 내면서도 규모는 100분의 1로 줄인 모델을 개발할 계획이다. 이후 2027년부터 2029년까지는 당대 최신 AI 모델과 같은 성능을 갖춘 100분의 1 규모 모델을 만드는 것이 목표다. 이러한 연구 성과는 국내 산업체로 확산해 한국어 기반 초거대 AI의 경쟁력을 높인다는 계획이다.
이재진 CHAMP 센터장은 "오늘날 초거대 AI는 미국 빅테크 기업이 선도하는 상황이다. 향후에는 반도체처럼 특정 국가의 제재 등 전략자산화 될 가능성도 있다. 때문에 초거대 AI를 우리가 개발해야 하고 ,이를 위한 구심점도 필요하다. CHAMP는 실용성과 학문적으로 동시에 고도화하고, 국내 산업체가 외국과 경쟁하는 환경을 만들어줄 것"이라고 밝혔다.
◆AI 인프라 투자는 성능과 직결... 구축·학습 비용 고민하는 기업들
LLM은 자연어로 된 일상 대화 형식의 질문에 대해 인간과 유사한 답을 내놓기 위해 훈련된 AI다. 방대한 양의 텍스트 데이터를 통해 훈련한 AI는 지식 정보를 알려주는 것은 물론, 긴 글을 빠르게 요약하거나 자연스러운 번역도 가능하다. 여기에 멀티모달(Multimodal) 기능을 더하면 사진이나 음성을 인식하거나 생성하는 것도 가능하다.
기업은 챗봇 등 고객과의 소통 채널에 활용해 고객 만족도를 높이거나, 문서 작성 등의 효율을 높일 수 있다. 특히 과거 직원들이 생산한 문서를 학습시켜두면 사용자가 과거 자료를 직접 살펴볼 필요 없이 주요 내용을 일목요연하게 알 수 있어 불필요한 업무가 줄어든다.
생성형 AI나 LLM의 매개변수(파라미터)와 학습 토큰 수가 꾸준히 증가하는 것도 기업에는 부담이다. 파라미터가 늘어나면 더 많은 정보를 기반으로 정확한 예측과 판단을 내릴 수 있고, 학습 토큰이 많으면 자연스러운 응답을 생성할 수 있다. 즉 LLM 규모는 성능과 직결된다. 하지만 파라미터와 토큰이 늘어날수록 모델이 복잡해져 학습이 어렵고, 연산 시간이 오래 걸린다. 이에 따라 모델이 커질수록 GPU 등 인프라 비용도 크게 늘어난다.
◆10분의 1 규모 모델도 동일한 성능... sLLM, 대안으로 주목
경량 LLM(sLLM)은 이러한 상황에서 주목받는 대안이다. 매개변수를 줄여 학습·운용 비용을 낮추고, 미세조정(파인튜닝)을 통해 정확도를 높인다. 세상 모든 정보가 기업에 필요하지 않기 때문에, 사업과 서비스에 필요한 특정 분야만 집중 학습시키는 것이다.
sLLM은 올해 초 메타가 자체 대형 언어모델 라마(LLaMA)를 공개하면서 주목받기 시작했다. 라마는 매개변수에 따라 4가지 버전으로 등장했는데, 이 중 가장 규모가 작은 모델인 '라마 7B'는 매개변수가 70억개다. 오픈AI가 만든 GPT-3의 매개변수 1750억개의 4%에 불과하다. 이처럼 매개변수가 적은 sLLM은 기존 LLM 대비 낮은 연산 성능으로도 구동할 수 있다. 기업의 고성능 하드웨어 기반 인프라 구축 부담을 줄이고. 운용 비용을 낮출 수 있는 것이 장점이다.
LLM은 모델 크기만큼 학습과 대형 서버 인프라 유지에 막대한 시간과 비용이 든다. 일례로 구글의 팜(PaLM)은 프로세서 4000개를 탑재한 슈퍼컴퓨터 2대로 두 달 가까이 모델을 학습시켰고, 오픈AI GPT-3는 초기 훈련 비용에만 약 132억원의 비용이 들었다. 연산과 냉각에 드는 전력 소모 역시 크다. 오픈AI의 경우 지난해 약 7140억원의 적자를 기록했는데, 막대한 인프라 유지비용이 든 것으로 풀이된다.
반면 sLLM은 학습에 드는 시간과 비용이 상대적으로 적다. 스탠퍼드대학교의 경우 라마 7B를 미세조정한 sLLM '알파카 7B(Alpaca 7B)'를 올해 3월 선보였다. 여기에는 엔비디아 H100 가격의 10분의 1 수준인 엔비디아 A100 GPU 8대가 쓰였으며, 5만2000개 데이터를 단 3시간 만에 학습 완료했다. 이처럼 적은 시간과 인프라만 이용했지만, 성능 자체는 GPT-3와 비등했다는 것이 스탠퍼드대 측 설명이다.
미국의 빅데이터 처리 솔루션 기업 데이터브릭스는 매개변수 60억개를 갖춘 오픈소스 모델 GPT-J를 기반으로 sLLM '돌리(Dolly)'를 개발했다. 이들의 설명에 따르면 약 5만개의 고품질 학습 데이터와 서버 1대를 이용해 챗GPT 수준의 언어 모델을 만들었는데, 학습 비용은 100달러(약 13만원)에 불과했다.
◆가벼워지는 AI 모델, 서버 벗어나 PC·모바일 기기로
경량화된 AI 모델은 장기적으로 스마트폰이나 노트북 등 휴대용 기기에서도 구동할 수 있다. 특히 AI 모델이 있는 서버와 통신할 필요 없이 데이터를 처리할 수 있어, 활용 영역도 넓어질 전망이다.
구글은 올해 5월 개최한 연례 개발자 회의 '구글 I/O'에서 기존 거대언어 모델 '팜'을 경량화한 팜2를 게코(Gecko), 오터(Otter), 바이슨(Bison), 유니콘(Unicorn) 등으로 세분화한다고 밝혔다. 이 중 게코는 모바일 기기에서도 충분한 성능을 낼 수 있다는 것이 구글 측 설명이다. 내부 테스트에서 삼성전자 갤럭시 스마트폰 최신 제품군에서 초당 20개 이상의 토큰을 생성했는데, 이는 일상적인 반응형 애플리케이션을 구동하기에 충분한 성능이라고 덧붙였다. 구글 어시스턴트 등의 AI 비서가 인터넷 연결 없이 사용자와 자연스럽게 대화할 수 있는 시대도 열릴 전망이다.
AI 스타트업 노믹AI도 일반 노트북에서 구동할 수 있는 sLLM 'GPT포올(GPT4ALL)'을 선보였다. 이들은 GPT-3.5를 이용해 질문과 답변 쌍(데이터셋)을 수집하고, 라마 7B 모델을 미세조정해 문서 작성이나 요약, 코드 작성 등 챗GPT의 주요 기능을 구현했다. 사용자가 입력한 데이터는 외부 서버가 아닌 개인 노트북에서 처리된다. 기존 LLM에서 우려하던 정보 유출 우려를 줄일 수 있는 것은 물론, 인터넷 연결이 불가능한 보안 구역에서도 활용 가능하다.
국내 AI 기업 코난테크놀로지가 선보인 LLM 역시 게임용 그래픽카드에서 구동할 수 있는 것이 강점이다. SK텔레콤(SKT)으로부터 지분투자를 받은 코난테크놀로지는 올해 8월, 자체 구축한 '코난 LLM'을 공개했다. 이 중 매개변수 131억개를 갖춘 코난 LLM 13B 버전은 엔비디아 200만원대 그래픽카드 RTX 3090으로도 운용할 수 있는 수준이다. 이러한 강점을 내세워 정보 유출 우려와 인프라 구축 부담을 느끼는 기업·기관을 공략한다는 계획이다.
이 밖에도 마인즈앤컴퍼니의 코딩 자동화 AI 'MNC 코드 어시스턴트', 스켈터랩스의 대화형 AI '벨라', 포티투마루의 기업용 정보검색 서비스 'LLM42' 등 국내 주요 AI 스타트업도 sLLM을 개발해 분야별 특화 서비스를 선보이고 있다.
◆정부도 AI 경량화 지원... 당대 최신 모델 100분의 1로 줄인다
우리나라도 LLM 등 초거대 AI 모델의 기술적 한계를 극복하기 위해 최적화와 경량화에 나선다. 과학기술정보통신부는 서울대학교 '초거대 AI 모델 및 플랫폼 최적화(CHAMP) 센터'를 선도연구센터(ERC) 지원사업으로 선정하고 140억5000만원을 지원한다. 여기에는 국비 135억원, 서울대 4억원, 모레 1억원 파두 5000만원 등이 투입된다.
CHAMP 센터는 초거대 AI 모델의 플랫폼, 알고리즘, 응용을 아우르는 전체적인 최적화를 통해 기술 한계를 극복하는 것이 목표다. 앞서 언급한 것처럼 초거대 AI는 막대한 인프라 투자와 거대한 모델이 필요하다. 즉 대기업이 아닌 이상 구축과 운용이 어렵다. 여기에 한국어로 된 학습 데이터 역시 영어 문화권과 비교해 적다는 점도 한계로 지적된다. 이에 따라 AI 경쟁 주도권은 미국 빅테크 기업으로 쏠리고 있다.
센터는 이러한 문제를 해결한다. 단계적으로 오는 2026년까지 오픈AI의 GPT-3.5와 동일한 성능을 내면서도 규모는 100분의 1로 줄인 모델을 개발할 계획이다. 이후 2027년부터 2029년까지는 당대 최신 AI 모델과 같은 성능을 갖춘 100분의 1 규모 모델을 만드는 것이 목표다. 이러한 연구 성과는 국내 산업체로 확산해 한국어 기반 초거대 AI의 경쟁력을 높인다는 계획이다.
이재진 CHAMP 센터장은 "오늘날 초거대 AI는 미국 빅테크 기업이 선도하는 상황이다. 향후에는 반도체처럼 특정 국가의 제재 등 전략자산화 될 가능성도 있다. 때문에 초거대 AI를 우리가 개발해야 하고 ,이를 위한 구심점도 필요하다. CHAMP는 실용성과 학문적으로 동시에 고도화하고, 국내 산업체가 외국과 경쟁하는 환경을 만들어줄 것"이라고 밝혔다.