국내 스타트업 업스테이지가 개발한 자체 언어모델이 메타 '라마(LLama)2'의 뒤를 이어 전세계 오픈 거대언어모델(LLM) 가운데 종합성능 2위에 등극하는 쾌거를 이뤘다.
업스테이지는 자사의 언어모델이 글로벌 인공지능(AI) 플랫폼인 '허깅페이스(HuggingFace)'에서 운영하는 오픈 LLM 리더보드에서 2위에 등극했다고 19일 밝혔다. 해당 리더보드는 파라미터(매개변수) 1000억개(100B) 이하의 오픈 LLM들의 성능을 순위로 매긴 것이다. 모델의 추론과 상식능력뿐 아니라 언어이해 종합능력과 환각현상(할루시네이션·헛소리) 방지 등 생성 AI 평가에 꼭 필요한 4가지 지표의 평가 점수 평균으로 최종 순위를 결정한다. 300개가 넘는 AI 모델들이 리더보드에서 경쟁하고 있다.
업스테이지는 이달 초 자체 구축한 모델을 허깅페이스의 리더보드에 제출해 성능을 평가받았다. 그 결과 메타가 이날 새벽 공개한 '라마2' 700억(70B) 파라미터 모델에 이어 평균 64.7점으로 2위를 차지했다. 이는 300억(30B) 파라미터 모델 중에서는 가장 높은 순위로 라마2의 절반도 안되는 사이즈로 경쟁력 있는 결과를 만든 셈이다. 특히 업스테이지의 모델은 비교적 작은 모델 사이즈에도 생성 AI의 가장 큰 문제점 중 하나인 환각현상 방지 지표에서 56.5점을 기록하며 2위를 차지했다. 이는 메타 '라마2' 모델의 52.8점을 뛰어넘는 수치다.
네이버와 SK텔레콤(SKT) 출신 개발자들이 지난 2020년 설립한 국내 스타트업인 업스테이지는 생성 AI 서비스인 '아숙업(AskUp)'을 2022년부터 운영하고 있다. 아숙업은 자체 광학문자인식(OCR) 기술을 챗GPT에 적용해 '눈 달린 챗GPT'라고 불린다. 출시 18일 만에 이용자 35만명을 돌파했으며 현재 130만 이용자를 넘어섰다. 업스테이지는 아숙업 운영 노하우를 활용해 약 두달간 자체 언어모델을 개발했고 이번에 처음으로 외부에 공개했다. 메타의 오픈소스 LLM '라마'를 파인튜닝(학습과정을 미세 조정하는 것)한 언어모델이다.
이번 허깅페이스 리더보드에서 마이크로소프트(MS) 등 빅테크 기업이 만든 모델과 스태빌리(Stability) AI, 데이터브릭스 등 글로벌 AI·LLM 대표 기업의 모델을 성능 면에서 앞질렀다. 최근 몇 달간 줄곧 1·2위를 지키던 아랍에미리트(UAE) 기술혁신연구소의 '팰컨' 모델과 최근 데이터브릭스가 13억 달러(약 1조7000억원)에 인수한 모자이크ML의 모델 등보다도 평균 10% 가량 높은 성적을 기록했다.
김성훈 업스테이지 대표는 "업스테이지의 AI 기술력이 지금 가장 치열한 경쟁을 벌이고 있는 생성 AI 글로벌 톱 플랫폼의 평가에서도 세계 최고의 성과를 거둬 무척 기쁘다"라며 "이번에 입증된 업스테이지의 기술력을 바탕으로 국내 기업은 물론 전세계 모든 기업들이 AI를 편리하게 사용할 수 있도록 노력할 것"이라고 언급했다.
업스테이지는 자체 언어모델이 우수한 평가를 받음에 따라 프라이빗 AI 시장에서 주도권을 빠르게 잡아 나가겠다는 의지를 나타냈다. 프라이빗 AI란 개별 기업 내부 시스템 등에 설치할 수 있는 맞춤형 AI를 일컫는다. 회사 측은 파라미터 650억개 이하의 소규모 LLM(sLLM)은 상대적으로 가벼운 규모로 비용 절감효과가 크고 내부 서버에 설치·운영이 가능해 활용성이 매우 높을 것으로 보고 있다.
프라이빗 AI는 개별 기업이 보유한 데이터를 학습시켜 내부 정보 유출을 막고 잘못된 정보를 생성하는 환각 현상을 줄일 수 있다는 장점이 있다. 챗GPT 등 개방형 생성 AI 서비스의 경우, 무심코 기업 내부 정보를 입력하다가 자칫 정보가 외부로 유출될 수 있다. 이에 회사 차원에서 이용을 제한하거나 아예 막는 경우가 늘어나고 있어 프라이빗 AI가 더욱 주목받고 있는 추세다. 업스테이지 관계자는 "고성능 소규모 AI를 통해 기업과 기관들은 정보유출에 대한 부담 없이 생성 AI를 자체적으로 구축하고 활용할 수 있다"라며 "추가적으로 국내 다양한 기업들의 요구에 부응하고자 한국어 성능을 높이기 위해 한국어 데이터를 추가 학습시킬 예정"이라고 말했다.
업스테이지는 자사의 언어모델이 글로벌 인공지능(AI) 플랫폼인 '허깅페이스(HuggingFace)'에서 운영하는 오픈 LLM 리더보드에서 2위에 등극했다고 19일 밝혔다. 해당 리더보드는 파라미터(매개변수) 1000억개(100B) 이하의 오픈 LLM들의 성능을 순위로 매긴 것이다. 모델의 추론과 상식능력뿐 아니라 언어이해 종합능력과 환각현상(할루시네이션·헛소리) 방지 등 생성 AI 평가에 꼭 필요한 4가지 지표의 평가 점수 평균으로 최종 순위를 결정한다. 300개가 넘는 AI 모델들이 리더보드에서 경쟁하고 있다.
업스테이지는 이달 초 자체 구축한 모델을 허깅페이스의 리더보드에 제출해 성능을 평가받았다. 그 결과 메타가 이날 새벽 공개한 '라마2' 700억(70B) 파라미터 모델에 이어 평균 64.7점으로 2위를 차지했다. 이는 300억(30B) 파라미터 모델 중에서는 가장 높은 순위로 라마2의 절반도 안되는 사이즈로 경쟁력 있는 결과를 만든 셈이다. 특히 업스테이지의 모델은 비교적 작은 모델 사이즈에도 생성 AI의 가장 큰 문제점 중 하나인 환각현상 방지 지표에서 56.5점을 기록하며 2위를 차지했다. 이는 메타 '라마2' 모델의 52.8점을 뛰어넘는 수치다.
이번 허깅페이스 리더보드에서 마이크로소프트(MS) 등 빅테크 기업이 만든 모델과 스태빌리(Stability) AI, 데이터브릭스 등 글로벌 AI·LLM 대표 기업의 모델을 성능 면에서 앞질렀다. 최근 몇 달간 줄곧 1·2위를 지키던 아랍에미리트(UAE) 기술혁신연구소의 '팰컨' 모델과 최근 데이터브릭스가 13억 달러(약 1조7000억원)에 인수한 모자이크ML의 모델 등보다도 평균 10% 가량 높은 성적을 기록했다.
김성훈 업스테이지 대표는 "업스테이지의 AI 기술력이 지금 가장 치열한 경쟁을 벌이고 있는 생성 AI 글로벌 톱 플랫폼의 평가에서도 세계 최고의 성과를 거둬 무척 기쁘다"라며 "이번에 입증된 업스테이지의 기술력을 바탕으로 국내 기업은 물론 전세계 모든 기업들이 AI를 편리하게 사용할 수 있도록 노력할 것"이라고 언급했다.
업스테이지는 자체 언어모델이 우수한 평가를 받음에 따라 프라이빗 AI 시장에서 주도권을 빠르게 잡아 나가겠다는 의지를 나타냈다. 프라이빗 AI란 개별 기업 내부 시스템 등에 설치할 수 있는 맞춤형 AI를 일컫는다. 회사 측은 파라미터 650억개 이하의 소규모 LLM(sLLM)은 상대적으로 가벼운 규모로 비용 절감효과가 크고 내부 서버에 설치·운영이 가능해 활용성이 매우 높을 것으로 보고 있다.
프라이빗 AI는 개별 기업이 보유한 데이터를 학습시켜 내부 정보 유출을 막고 잘못된 정보를 생성하는 환각 현상을 줄일 수 있다는 장점이 있다. 챗GPT 등 개방형 생성 AI 서비스의 경우, 무심코 기업 내부 정보를 입력하다가 자칫 정보가 외부로 유출될 수 있다. 이에 회사 차원에서 이용을 제한하거나 아예 막는 경우가 늘어나고 있어 프라이빗 AI가 더욱 주목받고 있는 추세다. 업스테이지 관계자는 "고성능 소규모 AI를 통해 기업과 기관들은 정보유출에 대한 부담 없이 생성 AI를 자체적으로 구축하고 활용할 수 있다"라며 "추가적으로 국내 다양한 기업들의 요구에 부응하고자 한국어 성능을 높이기 위해 한국어 데이터를 추가 학습시킬 예정"이라고 말했다.