"K-AI 반도체 쾌거" 리벨리온 '아톰' 엔비디아·퀄컴보다 최대 2배 빨라...언어모델 대전 열린다

2023-04-06 16:45
국산 AI 반도체 '아톰', MLPerf 벤치마크서 엔비디아·퀄컴 뛰어넘는 결과 내
언어모델 성능 제출한 국내 첫 사례...컴퓨터 비전도 엔비디아·퀄컴보다 뛰어나
퓨리오사·사피온도 언어모델·학습 특화 차세대 반도체 준비 중...엔비디아 패권 흔들어
구글도 엑사바이트급 성능 갖춘 TPU4 공개, 전 세계 1위 슈퍼컴퓨터 버금가

AI 반도체 '아톰' [사진=리벨리온]

국산 인공지능(AI) 반도체가 글로벌 성능 확인(벤치마크) 대회에서 엔비디아·퀄컴 등 동급 제품보다 최대 2배 우수한 성적을 냈다. 챗GPT 등으로 인해 초거대 언어모델(LLM) 실행을 위한 AI 하드웨어 인프라에 대한 중요성이 부각되는 상황에서 한국 팹리스가 미국 반도체 선도 기업과 어깨를 나란히 할 경쟁력이 있음을 입증한 쾌거다. 국내 다른 AI 반도체 업체들도 언어모델의 경량화가 본격화하는 올해 하반기에서 내년 상반기를 목표로 차세대 AI 반도체 개발에 속도를 내고 있다.

◆"국산 AI 반도체 일냈다"···美 빅테크보다 성능 최대 2배 우수

6일 국내 AI 반도체 스타트업인 리벨리온이 반도체의 머신러닝(ML·기계학습) 성능을 확인하는 가장 공신력 있는 벤치마크 대회인 'MLPerf(머신러닝 퍼포먼스)'에서 자사 AI 반도체인 '아톰'이  미국 반도체 팹리스 엔비디아·퀄컴의 AI 반도체(NPU)를 1.5~2배 이상 앞서는 성과를 냈다고 말했다.

MLPerf는 AI 반도체에 대한 객관적인 성능을 판단할 지표가 필요하다는 공감대 아래 마이크로소프트·구글·페이스북·엔비디아·AMD·인텔 등이 출자한 ML커먼스 재단이 주관하는 벤치마크 대회다. 분기마다 전 세계 AI 반도체의 컴퓨터 비전, 자연어 처리, 언어 인식 등 성능을 평가해 발표한다. 국내에선 삼성전자·한국정보통신기술협회(TTA)와 퓨리오사AI·사피온·리벨리온·모레 등 AI 반도체 업체들이 회원으로 가입했다.
 

MLPerf 3.0 추론 언어모델 결과 비교 [사진=리벨리온]

구체적으로 리벨리온 아톰은 MLPerf 3.0 언어모델(BERT-Large) 추론(실행) 성능 대회에서 데이터 처리시간(Latency)이 엔비디아의 추론용 AI 반도체인 'A2'보다 2배, 'T4'보다 1.4배 우수했다. 퀄컴의 AI 반도체인 클라우드 'AI100'과 비교해도 1.8배 빨랐다. 엔비디아 A2와 T4는 전력을 40~70W(평균 65W) 소모하는 시중의 대표적인 추론(실행)용 AI 반도체다. AI100도 퀄컴이 데이터센터용 AI 반도체 시장 공략을 위해 자사 모바일 GPU(그래픽처리장치) 개발 역량을 총동원해 개발한 AI 반도체다.

언어모델 추론 성능은 챗GPT 등으로 대표되는 트랜스포머 계열 언어모델을 얼마나 빠르게 실행할 수 있는지 보여주는 지표다. 지금까지 다른 국내 AI 반도체 기업은 컴퓨터 비전 추론 성능(ResNet50)만 제출했지만 리벨리온은 언어모델이 부각되는 현 AI 업계 상황을 고려해 언어모델 추론 성능을 함께 제출했다. 

학습용 AI 반도체는 데이터 처리율(Throughput)을 토대로 성능을 평가하는 반면 추론용 AI 반도체는 데이터 처리시간으로 성능을 매긴다. 데이터 처리율이 높아지면 AI 모델이 한번에 학습하는 데이터 양(Batch) 규모를 키워 모델 학습에 걸리는 시간을 단축할 수 있고, 데이터 처리시간이 단축되면 AI 모델이 실행 명령어(프롬프트)를 입력하고 결과물을 산출하는 데 필요한 시간을 줄일 수 있다.
 

MLPerf 3.0 추론 컴퓨터 비전 모델 결과 비교 [사진=리벨리온]

아톰이 언어모델에만 특화된 것은 아니다. 컴퓨터 비전 추론 성능도 A2보다 3배, T4보다 3.4배, AI100보다 1.4배 우수했다. 

박성현 리벨리온 대표는 "AI 반도체 설계의 핵심은 언어모델과 컴퓨터 비전 모델을 포함해 다양한 AI 알고리즘을 모두 추론할 수 있는 아키텍처를 만드는 것"이라며 "이번 벤치마크 결과는 칩 크기(다이 사이즈)나 생산 공정에 큰 영향을 받지 않는 싱글스트림 처리시간을 기준으로 하고 있어 리벨리온의 AI 반도체 코어 아키텍처 설계 우수성을 잘 드러내고 있다"고 의의를 설명했다. 

이어 "다음 MLPerf 대회에선 소프트웨어 최적화를 통해 30% 이상 AI 모델 추론 성능 향상을 보여줄 것"이라고 자신감을 드러냈다. 리벨리온은 이번 벤치마크 결과는 AI 모델과 AI 반도체를 연결하는 소프트웨어인 '리벨SDK'가 아직 미완성이라서 아톰 성능을 모두 끌어내지 못한 것이며 리벨SDK 정식 버전이 출시되는 올 상반기 이후에는 더 우수한 결과를 낼 수 있다고 강조했다.

리벨리온은 이번 MLPerf에서 데이터센터 설치 후 운영 결과를 보는 '추론: 데이터센터' 성능을 제출한 국내 경쟁사들과 달리 딥러닝 서버의 단독 성능을 보는 '추론: 에지' 성능을 제출했다. 아톰 기반의 딥러닝 서버는 전 세계 1위 서버 업체인 델EMC가 만들었다. 리벨리온 주요 투자자인 KT와 델EMC 간 돈독한 관계가 이번 벤치마킹용 딥러닝 서버 제작 인연으로 이어진 것으로 풀이된다. 다만 리벨리온은 서버 업체 슈퍼마이크로와 AI 반도체 정식 공급 계약을 맺은 경쟁사 사피온과 달리 델EMC와 정식 AI 반도체 공급 계약을 맺은 것은 아니라고 선을 그었다. 리벨리온이 이번 벤치마크에서 아톰 전력 소모량을 공개하지 않아 전력대성능비(TDP)를 산출하기는 어렵다.

아톰은 금융거래에 특화한 AI 반도체 '아이온'에 이어 리벨리온이 두 번째로 선보이는 AI 반도체다. 삼성전자 반도체 수탁생산(파운드리)의 극자외선(EUV) 기반 5㎚ 공정에서 제작됐다. 현재 국내 AI 반도체 가운데 가장 최신 공정을 기반으로 한다.

박 대표에 따르면 아톰은 추론용 AI 반도체의 대세인 65W급에서 엔비디아 AI 반도체와 비교해 도입 비용(가격)과 운영 비용(전기 소모)을 3분의 1 수준으로 낮추는 것을 목표로 한다. 같은 AI 모델 추론 성능을 보여주면서 서비스 운영에 필요한 전기료를 300억원에서 100억원으로 낮출 수 있다는 것이다.

다만 올해는 아톰을 2000개(일반 모델 1000개+다운클럭 모델 1000개)만 삼성전자 파운드리 측에서 전달받는다. 이 물량으로 올해 KT의 초거대 AI '믿음' 경량화 모델을 상용화하고, 과학기술정보통신부 'K-클라우드 AI 반도체팜 구축' 사업에 대응할 계획이다. 남는 칩은 샘플칩을 요청한 해외 구매자들에게 전달한다. 아톰 양산은 내년 1분기부터 시작되며 이때를 기점으로 해외시장 진출도 본격화할 계획이다.

KT는 지난해 리벨리온에 300억원을 투자하고 AI 반도체 사업 협력을 진행 중이다. 전 세계적으로 미국 AI 반도체 기업에 대한 의존도가 높은 가운데 KT는 리벨리온·모레 등 국내 AI 반도체 스타트업과 협력으로 순수 국내 기술 기반 하드웨어·소프트웨어 'AI 풀스택'을 갖추게 됐다. 이를 통해 AI 개발 인프라가 필요한 기업과 스타트업에 클라우드로 고효율·저비용의 AI 컴퓨팅 서비스를 제공할 계획이다. 정부와 기업의 AI 기반 신사업 활성화에도 큰 도움이 될 것으로 기대된다. 
 

박성현 리벨리온 대표가 MWC 2023에서 자사 AI 반도체 '아톰'을 전 세계 바이어들에게 소개하고 있다. [사진=강일용 기자]

◆올 하반기부터 언어모델 특화 반도체 대전 열려···"추론 시장 경쟁 활성화 기대"

리벨리온이 초거대 AI 시대에 대비해 언어모델 추론 성능을 강조함에 따라 퓨리오사AI, 사피온 등 국내 다른 AI 반도체 업체도 언어모델 추론에 특화한 차세대 AI 반도체 개발에 속도를 낼 것으로 전망된다. 퓨리오사AI는 2019년 11월, 사피온은 지난해 9월 MLPerf에 참가해 자사 AI 반도체 성능을 입증했지만 언어모델 대신 당시 널리 활용되던 컴퓨터 비전 모델 성능만 제출했다.

업계에 따르면 퓨리오사AI는 지난 2월 트랜스포머 모델 플랫폼을 운영 중인 미국 AI 기업 '허깅페이스'와 협력해 차세대 AI 반도체 개발에 속도를 낸다. 허깅페이스와 협력해 완성된 퓨리오사AI의 차세대 AI 반도체는 컴퓨터 비전에 특화한 1세대 AI 반도체 '워보이'와 달리 트랜스포머 계열 언어모델에 특화한 추론용 칩이다. 대규모 데이터를 한번에 처리할 수 있도록 3세대 고대역폭메모리(HBM3)를 탑재한다. 현재 칩 설계를 마쳤고 내년 상반기 중 양산을 시작할 계획이다.

사피온은 올해 하반기 AI 모델 추론뿐 아니라 학습까지 지원하는 차세대 AI 반도체 'X330'을 공개한다. X330 역시 컴퓨터 비전뿐 아니라 언어모델 추론에도 강한 면모를 보인다고 사피온 고위 관계자는 설명했다. 사피온은 특히 관계사인 SK하이닉스와 협력해 초거대 AI 학습·추론에 필수적인 대용량 메모리 연결에 집중하고 있다고 강조했다.

AI 반도체 시장에서 97%에 달하는 독점적인 점유율을 보이고 있는 엔비디아도 올해 상반기 중 차세대 추론용 AI 반도체 'L4' 양산에 착수할 전망이다. 2세대 전 코어 아키텍처인 '튜링(지포스 2000)' 기반인 T4, 1세대 전 코어 아키텍처인 '암페어(지포스 3000)' 기반인 A2와 달리 L4는 최신 코어 아키텍처인 '에이다 러브레이스(지포스 4000)'를 기반으로 TSMC 4㎚ 공정에서 생산돼 1.5배 정도 성능 향상이 예상된다. 성능 향상 폭은 작지만 전력 소모를 72W 내외로 최소화함으로써 엔비디아 AI 반도체의 약점으로 지적받은 높은 운영비용 해소에 집중할 것으로 알려졌다. 국내 AI 반도체 업체들이 AI 모델 추론 시장을 두고 내년부터 실질적으로 경쟁해야 하는 제품이기도 하다.

국산 AI 반도체 업체의 약진으로 전체 AI 반도체 시장에서 약 70%를 차지하는 추론 시장은 경쟁이 치열해질 것으로 기대되지만 학습 시장에선 엔비디아가 당분간 독주를 계속할 것으로 전망된다. 엔비디아의 학습용 AI 반도체인 'A100(암페어)'과 차세대 학습용 AI 반도체 'H100(호퍼)' 성능을 따라잡을 제품이 현재 없기 때문이다. 실제로 지난해 11월 진행한 MLPerf 학습 2.1 대회에선 A100이 독주했다. 인텔의 AI 반도체 설계 연구소 하바나랩의 차세대 AI 반도체 '가우디'를 제외하고 다른 기업은 참가를 포기할 지경이었다. 올 상반기 진행할 예정인 MLPerf 학습 3.0 대회에선 H100이 독주할 것으로 전망된다.
 

차세대 AI 반도체 'TPU4' [사진=구글클라우드]

다만 이날 구글클라우드는 자사가 개발한 차세대 학습용 AI 반도체 'TPU4'를 공개하며 엔비디아에 맞불을 놨다. TPU는 엔비디아 천하인 학습용 AI 반도체 시장에서 유일하게 성능 면에서 대등하다는 평가를 받는 AI 반도체다. 국내에선 LG AI연구원과 카카오브레인이 TPU를 활용해 초거대 AI 모델 학습을 하고 있다.

구글클라우드에 따르면 TPU4는 전작인 'TPU3' 대비 시스템 성능 확장은 10배, 칩 개별 성능은 2.1배, TDP는 2.7배 우수하다. 400W 정도 전력을 소모하는 A100·H100과 달리 전력 소모량도 200W로 절반 수준에 불과하다. 특히 엔비디아의 메모리 연결 기술인 '퀀텀 인피니밴드'에 대응하기 위해 자체 개발한 '광학 회로 스위치(OCS)'를 세계 최초로 상용화해 TPU4 4096개를 하나로 연결함으로써 엑사스케일급 AI 모델 학습·추론 성능을 갖춘 클라우드 슈퍼컴퓨터(HPC)를 만들었다. 이는 현재 세계 1위 슈퍼컴퓨터인 미국 오크리지 연구소 '프런티어'와 대등한 성능이며 구글이 자사가 세계 최고 슈퍼컴퓨터를 직접 만들었다고 밝혔다는 점에서 의의가 있다. 구글은 자사 초거대 AI 모델인 '바드'에 TPU4를 우선 적용한 후 클라우드를 통해 다른 기업에 공개할 방침이다.
 

[사진=아주경제DB]