[강기자의 기술 돋보기] HBM 품은 K-AI 반도체...저전력 앞세워 '라마3' 공략

2024-04-29 17:30
삼성전자·SK하이닉스·TSMC와 합종연횡
HBM D램 탑재한 고성능 추론칩으로 엔비디아 맞불

퓨리오사AI·리벨리온·사피온 등 K-인공지능(AI) 반도체 3사가 HBM(고대역폭 메모리) D램을 품은 차세대 AI 칩을 공개하고 올해부터 폭발적으로 성장할 전망인 추론(실행)용 AI 서버 시장을 공략한다. 이들 K-AI 반도체 팹리스는 △신형 HBM D램 △AI 처리장치와 HBM을 하나의 칩으로 합치는 첨단 패키징 기술 등을 안정적으로 확보하기 위해 삼성전자 또는 SK하이닉스·TSMC와 파트너십을 맺었다. K-AI 반도체 기업이 성장하면서 글로벌 AI 메모리·파운드리 경쟁에 새 변수로 떠오를 가능성도 점쳐진다.
 
SK하이닉스 HBM3 D램을 탑재한 국산 AI 반도체 '레니게이드' [사진=퓨리오사AI]

◆HBM 탑재 첫 K-AI 반도체 '레니게이드'...엔비디아 추론칩 저격

HBM을 품은 추론용 AI 반도체의 첫 포문을 연 K-AI 반도체 기업은 퓨리오사AI다. 29일 반도체 업계에 따르면 퓨리오사AI는 최근 미국 캘리포니아주 샌타클래라 컨벤션센터에서 열린 TSMC 기술 심포지엄에서 2세대 AI 반도체 '레니게이드(RNGD)' 실물을 공개했다.

퓨리오사AI가 1세대 AI 반도체 '워보이'에 이어 두 번째로 선보이는 AI칩 레니게이드는 국산 AI 반도체 가운데 최초로 SK하이닉스에서 만든 12단 HBM3(4세대 고대역폭 메모리)를 탑재한 게 특징이다. 

구체적으로 600억개의 트랜지스터로 구성된 레니게이드칩과 24GB 용량의 HBM3 D램 2개를 인터포저(중간기판)에 올린 후 TSMC 2.5D 첨단 패키징 기술인 'CoWoS(칩 온 웨이퍼 온 서브스트레이트)'로 결합했다. 레니게이드칩은 TSMC 5㎚ 공정에서 양산했다. 엔비디아 등 글로벌 주요 AI 반도체 기업이 채택하는 칩 제작 방식이다.

이를 통해 레니게이드는 8비트 부동소수점(FP8) 기준 512테라플롭스(TFLOPS)의 성능과 48GB의 용량을 갖춘 AI 반도체로 거듭났다는 게 퓨리오사AI 측 설명이다.

HBM3를 채택함으로써 레니게이드는 초당 1.5TB(테라바이트)의 대역폭(시간당 전송할 수 있는 데이터 양)을 확보했다. GDDR6를 탑재한 중저가 AI 반도체와 비교해 약 3배 이상 빠르다. 칩의 전력소모(TDP)는 150W(와트)에 불과하다. 엔비디아 주력 AI 반도체 H100과 비교해 4분의1 수준이다.

퓨리오사AI가 국내 AI 반도체 기업 가운데 가장 빠르게 HBM을 탑재한 칩을 상용화할 수 있었던 비결은 두 가지다. 먼저 AI 메모리와 첨단 패키징 원천기술을 보유한 SK하이닉스·TSMC와 협력해 빠르게 시장 대응에 나섰다. GDDR D램을 채택한 중저가 AI 반도체 개발을 과감하게 건너뛰고 바로 HBM D램을 탑재한 모델로 승부수를 띄운 것도 차별화 포인트다.

퓨리오사AI는 레니게이드로 엔비디아의 추론용 AI 반도체 가운데 가장 상위 모델인 'L40s'와 시장에서 정면 승부할 수 있을 것으로 기대하고 있다. 레니게이드의 처리장치 성능(테라플롭스)은 L40s의 70% 수준이지만, 대신 D램 대역폭이 약 2배가량 우수하고 전력소모도 절반 수준인 만큼 추론용 AI 서버 시장에서 충분히 승산이 있다고 회사 측은 판단하고 있다.
 
[사진=리벨리온]
◆리벨리온·삼성전자 동맹 첫 결실 '리벨 쿼드'...100B 언어모델 추론

SK하이닉스·TSMC와 협력하는 퓨리오사AI와 달리 리벨리온은 차세대 AI 반도체를 만들기 위해 삼성전자와 손을 잡았다. 단순히 손을 잡는 것을 넘어 제품 설계·양산 전 과정에서 긴밀히 협력하는 동맹 체제를 구축했다. AI 메모리·파운드리 사업에서 SK하이닉스와 TSMC를 따라잡으려는 삼성전자 입장에서 두 가지 기술을 모두 요구하는 리벨리온이 최적의 사업 파트너였던 것으로 풀이된다.

반도체 업계에 따르면 리벨리온은 지난해 5월 삼성전자와 전략적 파트너십을 맺고 3세대 AI 반도체 '리벨(REBEL)' 개발을 진행 중이다. 리벨은 삼성전자가 지난 2월 개발한 12단 HBM3E(5세대 고대역폭 메모리) D램을 탑재하는 게 특징이다. 

리벨은 단일 처리장치 칩으로 구성된 '리벨 싱글'과 네 개의 처리장치 칩을 칩렛 구조로 연결한 '리벨 쿼드'로 나뉜다. 하나의 리벨 코어에 36GB의 HBM3E D램을 연결한다. 이에 리벨 싱글은 36GB, 리벨 쿼드는 144GB의 D램 용량을 갖추게 된다. 삼성전자 HBM3E의 성능을 고려하면 리벨 쿼드의 대역폭은 K-AI 반도체 가운데 가장 우수한 초당 4.8TB에 이를 전망이다. 

리벨리온은 리벨을 만들기 위해 삼성전자 메모리 사업부뿐 아니라 삼성전자 파운드리 사업부와도 긴밀히 협력한다. 리벨 코어를 삼성전자 파운드리 텍사스 테일러팹 4㎚ 공정에서 양산하고, 완성된 칩과 HBM3E D램을 삼성전자의 2.5D 첨단 패키징 기술인 '아이큐브(I-Cube)'를 통해 하나의 AI 반도체로 결합한다.

리벨쿼드는 매개변수 700억개(70B) 이상의 초거대언어모델(LLM)을 단일 칩에서 추론하는 게 목표다. 다만 단일 칩 또는 2개의 칩을 칩렛으로 연결한 시중의 AI 반도체와 달리 4개의 칩을 칩렛으로 연결하는 실험적인 구조에 도전하는 만큼 실제 추론 성능은 리벨 실물이 공개된 후 확인할 수 있을 전망이다. 

리벨리온은 리벨쿼드와 함께 엔비디아의 초고속 AI 반도체 연결 기술인 '엔비링크'에 대응할 수 있는 칩 연결 기술을 자체 개발하고, 이를 토대로 다수의 리벨 쿼드만으로 구성된 AI 하드웨어 플랫폼 '리벨 팟'도 선보일 계획이다. 리벨 팟은 매개변수 1000억개(100B+)를 넘는 초거대 AI 추론에 특화한 하드웨어다.
 
[사진=사피온]
◆SK하이닉스 최신 HBM 탑재 'X430'...슈퍼마이크로와 글로벌로

지난해 2세대 AI 반도체 'X330'을 공개하고 올 하반기부터 본격적으로 추론용 AI 서버 판매에 나서는 사피온도 HBM D램을 탑재한 3세대 AI 반도체 'X430' 개발에 본격 착수했다. 엔비디아·삼성전자 등에서 근무한 마이클 쉐바노 최고기술책임자(CTO) 주도로 2025년 X430 공개를 목표로 전사 연구개발 역량을 집중하고 있다..

사피온은 SK하이닉스가 지분 25%를 보유한 관계사다. HBM D램도 전량 SK하이닉스에서 공급받는다. 사피온 고위 관계자는 "X430 출시에 맞춰 SK하이닉스의 최신 HBM D램을 공급받을 계획"이라고 말했다. X430 출시시기를 고려하면 적어도 SK하이닉스가 올 3분기 이후 공개할 예정인 12단 HBM3E 이상의 D램을 탑재할 것으로 예측된다. 전작 양산과 SK하이닉스·TSMC 파트너십 등을 고려하면 X430 칩 양산과 첨단 패키징도 TSMC에 맡길 가능성이 높다.
 
기업 생성 AI 선호도 [사진=클리어ML]
K-AI 반도체 3사가 일제히 HBM을 탑재한 고성능 추론칩 개발에 나선 것은 올해부터 급성장할 전망인 기업 LLM 추론용 AI 서버 시장을 공략하기 위함이다. 미국 AI 스타트업 클리어ML이 전 세계 약 1450개 기업을 상대로 한 설문조사에 따르면 응답 기업의 96%가 AI 컴퓨팅을 위한 인프라(하드웨어)를 확장할 계획이다. 이 가운데 60%는 클라우드로, 40%는 구축형(온프레미스)으로 AI 인프라를 확장하겠다고 답했다.

또 AI 인프라 부족 문제를 해결하려는 기업의 약 52%가 엔비디아의 고가 데이터센터 GPU(AI 반도체)를 대체할 추론용 AI 서버를 찾는다고 답했다. 학습용 AI 서버를 원하는 기업은 약 27%였다. 응답한 기업의 5분의1(약 20%)은 엔비디아 데이터센터 GPU를 대체할 수 있는 효율적인 AI 칩에 관심이 있지만 어떤 대안이 있는지는 알지 못한다고 답했다.

클리어ML은 "높은 AI 운영비가 추론용 AI 서버의 주요 구매 이유"라며 "대부분의 회사가 아직 생성 AI를 업무에 도입하지 못한 만큼 비용 효율적인 추론용 AI 인프라 구매에 관한 수요가 증가할 것으로 예상된다"고 밝혔다.

전문가들은 HBM을 탑재한 K-AI 반도체가 시장에서 엔비디아의 대안으로 빠르게 인정받으려면 메타의 오픈소스 LLM '라마2', '라마3', '코드-라마' 등에 최적화해야 한다고 조언했다. 실제로 클리어ML 조사를 보면 응답 기업의 절반 이상이 라마와 라마를 파인튜닝(미세조정)한 LLM을 도입할 계획이다. BERT 계열 LLM을 도입할 계획인 기업은 약 26%였으며 스테이블 디퓨전(15%)과 기타 멀티모달 모델(7%)이 뒤를 이었다.

이에 세 회사는 자사 AI 칩에서 라마를 효과적으로 추론할 수 있도록 소프트웨어 연구개발에 회사 명운을 걸고 있는 것으로 알려졌다. AI 반도체와 AI 모델을 연결하는 가교 구실을 하는 엔비디아 '쿠다' 라이브러리에 대응하는 독자적인 연결 라이브러리를 만들고 칩 고객사가 효과적으로 라마와 라마 계열 모델, 스테이블 디퓨전 등을 추론할 수 있도록 지원한다.

또 K-AI 반도체 기업은 국내외 클라우드 기업(CSP)과 서버 기업(온프레미스)에 자사 AI 반도체를 공급하며 판로 확대에 심혈을 기울이고 있다. 가장 앞선 곳은 사피온이다. 사피온은 NHN클라우드에 자사 AI 반도체를 제공한 데 이어 엔비디아의 AI 서버 핵심 파트너인 미국 슈퍼마이크로와 칩 공급 관련 협약을 맺었다. 이어 세계 최대 서버 제조사인 델과 공급 관련 협의를 진행 중인 것으로 알려졌다. 

리벨리온은 KT클라우드에 AI 반도체를 공급하고 유의미한 매출을 내며 업계 이목을 집중시켰다. 글로벌 서버 제조사와도 공급 관련 협의를 진행 중이다. 퓨리오사 AI는 미국 스트리밍 기업 시부에 AI 반도체를 공급하고 대만 에이수스와 추론용 AI 서버 제작을 위한 협약을 맺었다. 레니게이드 양산이 시작되면 LG AI 연구원에 AI 반도체를 제공하며 AI 운영비 절감을 위한 공동 연구개발도 진행할 방침이다.