처음 모습 드러낸 네이버·삼성 AI 반도체..."30B 언어모델 단일 칩 실행" 강조

2023-12-03 12:50
네이버-삼성전자 협력 첫 성과
HBM 없이 LPDDR로 언어모델 추론 성능↑
AI 모델 경량화 핵심...외부 판매도 고려

[사진=게티이미지뱅크]
네이버·삼성전자가 지난해부터 협력해 만들고 있는 인공지능(AI) 반도체의 윤곽이 처음 드러났다. HBM(고대역메모리) 대신 LP(저전력)DDR D램을 탑재하며 '하이퍼클로바X'를 필두로 오픈소스 초거대언어모델(LLM)을 추론(실행)할 수 있을 정도로 설계 작업이 진척됐다. 네이버는 자체 AI 모델 추론으로 AI 반도체 성능을 우선 검증한 후 빅테크처럼 클라우드를 통해 외부에 공개해 기업 AI 운영비 절감에 나설 방침이다.

3일 반도체 업계에 따르면 지난 1일 열린 서울대 'AI 효율성 워크숍'에서 네이버클라우드가 자체 개발 중인 AI 반도체 설계 구조에 대해 공개했다. 

'네이버 AI 반도체(가칭)'의 가장 큰 특징은 전력 효율을 높이고 대량 양산을 위해 HBM 대신 LPDDR D램을 탑재한 점이다. 네이버·삼성전자 협력관계를 고려하면 삼성전자가 공급한 제품으로 풀이된다.

팀네이버 AI 칩 설계를 총괄하는 이동수 네이버클라우드 이사는 "HBM이 성능·전력효율 면에서 우수한 메모리임은 틀림없지만, 공정이 복잡해 대량양산이 어렵고 LPDDR 대비 가격이 비싸고 전력소모가 심하다"고 밝혔다. 그러면서 "네이버클라우드는 대량양산·저전력에 초점을 두고 LPDDR을 채택했고 (AI 모델) 경량화 기술 덕분에 HBM을 쓸 때와 동일하거나 그 이상의 LLM 추론 성능을 확보했다"고 덧붙였다.

시중의 AI 반도체는 다양한 AI 모델을 지원하기 위해 범용적인 성능에 초점을 맞췄고 이 때문에 하나의 AI 모델을 추론하기 위해 여러 개의 AI 반도체가 필요하다. 반면 네이버 AI 반도체는 압축된 AI 모델을 추론하는 데 특화해 하나의 AI 칩으로도 AI 모델을 추론하는 게 가능하다고 네이버 측은 밝혔다.

이를 두고 하정우 네이버클라우드 AI센터장은 "AI 모델 경량화를 위해 양자화, 비구조화된 신경망 압축, 칩에서 연산을 고려한 행렬곱 등 신기술을 적용했고 AI 모델과 AI 반도체가 데이터를 주고받는 효율성을 끌어올렸기에 가능한 성과"라고 설명했다.

네이버 AI 반도체는 네이버의 LLM 하이퍼클로바X뿐 아니라 메타(페이스북)의 오픈소스 LLM '라마'와 네이버랩스가 트랜스포머 기반으로 만든 이미지 생성 AI 등도 추론하며 그 성능을 입증했다. 현재는 회로 설계 효율을 검증하는 FPGA(용도변경가능 반도체) 단계이고 곧 이를 바탕으로 ASIC(특화 반도체) 설계에 착수할 전망이다. 

이동수 이사는 AI 운영비에 직결되는 AI 반도체 전력소모가 시중 제품들과 비교해 크게 줄었다고 자신했다. 그는 "경량화 덕분에 활용가능한 메모리 용량이 늘었다"며 "기존 HBM 탑재 AI 반도체는 메모리 문제로 매개변수 300억(30B)에서 650억개(65B) LLM을 추론할 때에도 여러 개의 칩이 필요했지만, 네이버 AI 반도체는 칩 하나로도 여유롭게 구동이 가능하다"고 밝혔다.

이어 "네이버 AI 반도체는 칩 간 데이터 통신으로 인한 속도 저하와 전력 급상승 문제도 없다"며 "경량화 덕분에 활용가능한 메모리 대역폭도 현격히 증가했다"고 자신감을 표했다. 

네이버클라우드 내부 벤치마크 결과에 따르면 네이버 AI 반도체는 30B LLM 추론 기준 AI 모델의 성능을 유지하면서 전력소모를 8분의1 수준으로 낮추는 데 성공했다. 이를 토대로 AI 반도체의 활용 영역을 데이터센터를 넘어 로봇과 자율주행차로도 확대하려는 게 네이버·삼성전자의 포부다.

이동수 이사는 "이 AI 반도체는 팀네이버 내부 사용뿐 아니라 외부 판매를 고려해 만든 칩"이라며 "비메모리 분야에서 한국의 새로운 상징이 될 사업이 될 수 있도록 네이버·삼성전자가 최선을 다하겠다"고 전했다.