[Tech in Trend] K-AI 반도체의 미래...학습 vs 추론·저전력 두고 이견
2023-01-09 00:05
정부, AI 반도체 추론→학습용 고도화 계획 두고 기업간 의견 갈려
시장 수요는 추론용 중심...전력 소비 적지만 범용성 떨어져
HBM으로 데이터 처리율 높은 학습용...전력소비량 많지만 초거대 AI 필수
"장기적으론 별개 시장 공존 전망" 학습·추론용 연계 AI 서비스 기대
시장 수요는 추론용 중심...전력 소비 적지만 범용성 떨어져
HBM으로 데이터 처리율 높은 학습용...전력소비량 많지만 초거대 AI 필수
"장기적으론 별개 시장 공존 전망" 학습·추론용 연계 AI 서비스 기대
국산 인공지능(AI) 반도체 산업의 미래 발전방향을 두고 기업·정부뿐 아니라 국내 기업 간에도 의견이 엇갈리고 있다. 한정된 자본·인력을 두고 AI 모델 학습과 추론(실행)을 모두 지원하는 '학습용 AI 반도체(Training NPU)'와 특정 AI 모델 실행에 특화된 '추론용 AI 반도체(Inference NPU)' 가운데 어디에 집중해야 미국 엔비디아가 독주 중인 전 세계 AI 반도체 시장에서 국산 AI 반도체의 지분을 확대할 수 있을지 고민한 흔적이다.
8일 업계에 따르면 국내 AI 반도체 팹리스인 리벨리온의 박성현 대표는 지난달 29일 페이스북에 올린 글을 통해 "AI 반도체 회사들이 트레이닝 칩(학습용 AI 반도체)을 만들어야 한다는 분들께는 뭐라 드릴 말씀이 없다. 당장에는 학습 인프라 수요가 강하겠지만, 상용화 (AI) 서비스 시대가 도래하면 대규모 추론 인프라(추론용 AI 반도체)에 대한 수요가 훨씬 커질 것"이라고 밝혔다.
이는 과학기술정보통신부가 기획하고 있는 차세대지능형반도체 기술개발 1단계에서 국산 AI 반도체를 추론용에서 학습용으로 고도화하겠다는 계획 방향성과 반대되는 의견이다. 리벨리온은 오는 3월 자연어 처리 AI 모델 추론에 특화된 AI 반도체 양산에 착수할 계획이다.
박 대표뿐 아니라 다른 AI 반도체 업계 고위 관계자도 "추론용에서 학습용 AI 반도체로 고도화해야 한다는 정부의 방향성에는 공감하지만, 당장은 추론용 AI 반도체에 집중할 것"이라고 밝혔다.
반면 SK텔레콤·SK하이닉스의 자회사인 사피온은 학습용 AI 반도체 출시를 공식화한 상황이다. 내년 하반기 출시 계획인 AI 반도체 '사피온 X330~350'은 AI 학습과 추론을 모두 지원한다. 정부의 기술개발 계획과 뜻을 같이하고 있는 것이다.
이를 두고 업계에선 당장은 비슷해 보이는 국산 AI 반도체 업체들이 2~3년 후에는 서로 다른 사업 방향성을 보일 것으로 해석했다. 추론용 AI 반도체는 학습용 AI 반도체와 설계 및 용도가 다른 것이지 결코 하위 기술이 아니라는 것이다.
◆3년 뒤 100조 규모 AI 반도체 시장...추론용이 주도
시장조사업체 가트너에 따르면 AI 모델 확산으로 AI 반도체 시장 규모는 2021년 347억 달러(약 42조7000억원)에서 연평균 16%씩 급성장해 2026년 861억 달러(약 108조5000억원)에 달할 전망이다. 이는 전 세계 메모리 반도체 시장의 절반에 달하는 규모다.
데이터센터용 AI 반도체는 AI 모델 학습에 적합한 학습용 AI 반도체와 AI 모델 실행에 특화된 추론용 AI 반도체로 나눌 수 있다. 시장 수요는 추론용 AI 반도체가 절대적으로 많다. 시장조사업체 트랙티카는 오는 2025년 AI 반도체 시장에서 추론용 AI 반도체가 78%, 학습용 AI 반도체가 22% 정도의 시장 점유율을 차지할 것으로 예측했다.
추론용 AI 반도체의 가장 큰 강점은 엔비디아 AI 반도체(GPU)보다 월등한 비용 효율성과 적은 전력 소비다. 기업의 AI 서비스 비용이 치솟고, 데이터센터 전력 감축이 탄소중립의 핵심이 된 상황에서 해법으로 떠오르고 있다.
세계 최대 클라우드 사업자인 아마존웹서비스(AWS)는 이스라엘 AI 반도체 팹리스 '안나푸르나랩스'를 인수하고 자사 클라우드를 통해 추론용 AI 반도체 '인퍼런시아'를 선보였다. AWS에 따르면 인퍼런시아는 기존 엔비디아 AI 반도체 대비 최대 70% 저렴한 비용에 이용할 수 있다. 일례로 인퍼런시아를 아마존의 AI 비서 '알렉사'에 적용, 서비스 비용을 30% 절감하고 영상인식 속도를 8배 향상시켰다고 밝혔다.
이루다 2.0을 선보이며 자연어 처리 기술을 입증한 국내 AI 스타트업 스캐터랩도 연구 보고서를 통해 같은 AI 모델을 실행했을 때 AWS의 추론용 AI 반도체가 엔비디아의 추론용 AI 반도체(테슬라 A 시리즈) 대비 3분의 1, 학습+추론용 AI 반도체(테슬라 N 시리즈) 대비 5분의1 정도 저렴하게 이용할 수 있었다고 밝혔다.
이는 추론용 AI 반도체가 특정 AI 모델에 특화된 설계를 함으로써 불필요한 전력 소비를 최소화했기 때문에 가능한 점이다. 업계에 따르면 하이퍼스케일 데이터센터는 지방 중소 도시에 버금가는 전력을 소비한다. 이러한 데이터센터 내 전력 소비에서 IT 장비는 52%(서버 44%, 네트워크 8%), 냉각은 38%, 전력시스템은 10% 비율을 차지한다. 특히 IT 장비에서 엔비디아 AI 반도체의 비중이 최근 급증하는 것으로 알려졌다.
반면 사피온이 양산 중인 AI 반도체 X220은 동급 엔비디아 추론용 AI 반도체보다 전력 소모량 대비 성능(전성비)이 2.2배 우수해 더 적은 전력 소모로도 AI 모델을 실행할 수 있음을 입증했다.
다만 추론용 AI 반도체는 아직 가야 할 길이 멀다. 먼저 특정 AI 모델 추론에 특화되어 있어 구조가 다른 AI 모델을 제대로 실행할 수 없는 문제가 있다. 범용성이 떨어진다는 것이다. 일례로 AWS의 추론용 AI 반도체도 자연어 처리의 필수인 언어 생성 모델을 제대로 처리하지 못하는 문제를 드러냈다. 때문에 AI 서비스 상용화를 위해 AI 개발사와 AI 반도체 업체의 긴밀한 협업이 필수적으로 요구된다.
학습용 AI 반도체보다 상대적으로 낮은 처리율(throughput)로 인해 단기간에 처리할 수 있는 데이터양(배치)이 적은 문제도 있다. 일반적인 AI 서비스를 제공하는 데 충분하지만, 초거대 AI와 같이 방대한 데이터를 처리하는 AI 모델을 실행하기엔 아직 부족한 점이 있다.
8일 업계에 따르면 국내 AI 반도체 팹리스인 리벨리온의 박성현 대표는 지난달 29일 페이스북에 올린 글을 통해 "AI 반도체 회사들이 트레이닝 칩(학습용 AI 반도체)을 만들어야 한다는 분들께는 뭐라 드릴 말씀이 없다. 당장에는 학습 인프라 수요가 강하겠지만, 상용화 (AI) 서비스 시대가 도래하면 대규모 추론 인프라(추론용 AI 반도체)에 대한 수요가 훨씬 커질 것"이라고 밝혔다.
이는 과학기술정보통신부가 기획하고 있는 차세대지능형반도체 기술개발 1단계에서 국산 AI 반도체를 추론용에서 학습용으로 고도화하겠다는 계획 방향성과 반대되는 의견이다. 리벨리온은 오는 3월 자연어 처리 AI 모델 추론에 특화된 AI 반도체 양산에 착수할 계획이다.
박 대표뿐 아니라 다른 AI 반도체 업계 고위 관계자도 "추론용에서 학습용 AI 반도체로 고도화해야 한다는 정부의 방향성에는 공감하지만, 당장은 추론용 AI 반도체에 집중할 것"이라고 밝혔다.
반면 SK텔레콤·SK하이닉스의 자회사인 사피온은 학습용 AI 반도체 출시를 공식화한 상황이다. 내년 하반기 출시 계획인 AI 반도체 '사피온 X330~350'은 AI 학습과 추론을 모두 지원한다. 정부의 기술개발 계획과 뜻을 같이하고 있는 것이다.
이를 두고 업계에선 당장은 비슷해 보이는 국산 AI 반도체 업체들이 2~3년 후에는 서로 다른 사업 방향성을 보일 것으로 해석했다. 추론용 AI 반도체는 학습용 AI 반도체와 설계 및 용도가 다른 것이지 결코 하위 기술이 아니라는 것이다.
◆3년 뒤 100조 규모 AI 반도체 시장...추론용이 주도
시장조사업체 가트너에 따르면 AI 모델 확산으로 AI 반도체 시장 규모는 2021년 347억 달러(약 42조7000억원)에서 연평균 16%씩 급성장해 2026년 861억 달러(약 108조5000억원)에 달할 전망이다. 이는 전 세계 메모리 반도체 시장의 절반에 달하는 규모다.
데이터센터용 AI 반도체는 AI 모델 학습에 적합한 학습용 AI 반도체와 AI 모델 실행에 특화된 추론용 AI 반도체로 나눌 수 있다. 시장 수요는 추론용 AI 반도체가 절대적으로 많다. 시장조사업체 트랙티카는 오는 2025년 AI 반도체 시장에서 추론용 AI 반도체가 78%, 학습용 AI 반도체가 22% 정도의 시장 점유율을 차지할 것으로 예측했다.
추론용 AI 반도체의 가장 큰 강점은 엔비디아 AI 반도체(GPU)보다 월등한 비용 효율성과 적은 전력 소비다. 기업의 AI 서비스 비용이 치솟고, 데이터센터 전력 감축이 탄소중립의 핵심이 된 상황에서 해법으로 떠오르고 있다.
세계 최대 클라우드 사업자인 아마존웹서비스(AWS)는 이스라엘 AI 반도체 팹리스 '안나푸르나랩스'를 인수하고 자사 클라우드를 통해 추론용 AI 반도체 '인퍼런시아'를 선보였다. AWS에 따르면 인퍼런시아는 기존 엔비디아 AI 반도체 대비 최대 70% 저렴한 비용에 이용할 수 있다. 일례로 인퍼런시아를 아마존의 AI 비서 '알렉사'에 적용, 서비스 비용을 30% 절감하고 영상인식 속도를 8배 향상시켰다고 밝혔다.
이루다 2.0을 선보이며 자연어 처리 기술을 입증한 국내 AI 스타트업 스캐터랩도 연구 보고서를 통해 같은 AI 모델을 실행했을 때 AWS의 추론용 AI 반도체가 엔비디아의 추론용 AI 반도체(테슬라 A 시리즈) 대비 3분의 1, 학습+추론용 AI 반도체(테슬라 N 시리즈) 대비 5분의1 정도 저렴하게 이용할 수 있었다고 밝혔다.
이는 추론용 AI 반도체가 특정 AI 모델에 특화된 설계를 함으로써 불필요한 전력 소비를 최소화했기 때문에 가능한 점이다. 업계에 따르면 하이퍼스케일 데이터센터는 지방 중소 도시에 버금가는 전력을 소비한다. 이러한 데이터센터 내 전력 소비에서 IT 장비는 52%(서버 44%, 네트워크 8%), 냉각은 38%, 전력시스템은 10% 비율을 차지한다. 특히 IT 장비에서 엔비디아 AI 반도체의 비중이 최근 급증하는 것으로 알려졌다.
반면 사피온이 양산 중인 AI 반도체 X220은 동급 엔비디아 추론용 AI 반도체보다 전력 소모량 대비 성능(전성비)이 2.2배 우수해 더 적은 전력 소모로도 AI 모델을 실행할 수 있음을 입증했다.
다만 추론용 AI 반도체는 아직 가야 할 길이 멀다. 먼저 특정 AI 모델 추론에 특화되어 있어 구조가 다른 AI 모델을 제대로 실행할 수 없는 문제가 있다. 범용성이 떨어진다는 것이다. 일례로 AWS의 추론용 AI 반도체도 자연어 처리의 필수인 언어 생성 모델을 제대로 처리하지 못하는 문제를 드러냈다. 때문에 AI 서비스 상용화를 위해 AI 개발사와 AI 반도체 업체의 긴밀한 협업이 필수적으로 요구된다.
학습용 AI 반도체보다 상대적으로 낮은 처리율(throughput)로 인해 단기간에 처리할 수 있는 데이터양(배치)이 적은 문제도 있다. 일반적인 AI 서비스를 제공하는 데 충분하지만, 초거대 AI와 같이 방대한 데이터를 처리하는 AI 모델을 실행하기엔 아직 부족한 점이 있다.
◆팔방미인 '학습용' 반도체...초거대 AI에 필수
학습용 AI 반도체는 고대역폭 메모리(HBM)를 탑재함으로써 데이터 처리율을 끌어올린 것이 특징이다. 생산 단가가 비싸고 전력 소비도 많지만, 초거대 AI를 포함해 AI 모델 학습과 추론 어디에나 사용할 수 있는 게 강점이다. 지난해 화제가 된 '그림 그리는 AI(생성 AI)' 실행도 아직은 학습용 AI 반도체에서만 가능하다.
국내 기업이 경쟁력을 가진 추론용 AI 반도체와 달리 학습용 AI 반도체는 엔비디아의 독무대다. 전 세계에서 유일하게 슈퍼컴퓨터(HPC) 학습용 AI 반도체(테슬라 V 시리즈)를 시판하고 있는 데다가, 고대역폭 메모리끼리 빠르게 데이터를 주고받음으로써 AI 모델의 학습 속도를 끌어올리는 기술(NVLink)도 갖추고 있어 대부분의 기업이 AI 모델 학습에 엔비디아 학습용 AI 반도체를 이용한다.
실제로 지난해 11월 출시되어 IT 업계에 충격을 준 오픈AI의 '챗GPT'도 대량의 엔비디아 학습용 AI 반도체로 구성된 마이크로소프트 애저 HPC 클라우드에서 학습을 진행한 바 있다.
다만 학습용 AI 반도체 업계에서도 비용 효율성과 저전력을 확보하려는 움직임이 본격화되고 있다. 60W 내외의 전력을 소모하는 추론용 AI 반도체와 비교해 수백W의 전력을 소모하는 학습용 AI 반도체는 저전력·탄소중립이라는 전 세계적인 추세에 반한다는 것이다.
일례로 처음에는 추론용 AI 반도체로 시작한 구글의 AI 반도체 'TPU'는 지속적인 기술 개발로 현재는 엔비디아와 유일하게 기술적으로 겨룰 수 있는 학습용 AI 반도체라는 평가를 받고 있다. LG AI연구원과 카카오브레인은 구글 AI 반도체를 활용해 초거대 AI 모델을 학습시키고 있다.
학습용 AI 반도체는 반도체 기술과 함께 한국이 전 세계 최고 수준 기술을 보유한 고대역폭 메모리가 중요한 만큼 국내 AI 반도체 기업이 오히려 선도할 수 있는 분야라는 의견도 있다. 이에 사피온은 SK하이닉스와 함께 차세대 고대역폭 메모리인 'HBM3'를 활용한 학습용 AI 반도체 공동 개발에 착수하고 2025년 상용화하겠다는 목표를 제시하기도 했다. SK하이닉스 입장에서도 수요처가 엔비디아·AMD·인텔 등에 한정된 HBM 메모리의 공급을 확대할 수 있는 이점이 있다.
◆추론·학습 별개 시장...AI 반도체 SW 개발 개별 기업 주도로 해야
업계에선 장기적으론 추론용 AI 반도체와 학습용 AI 반도체가 별개 시장을 이루며 공존할 것으로 보고 있다. 학습용 AI 반도체로 빠르게 AI 모델을 고도화하고, 이를 추론용 AI 반도체와 연결해 저비용·저전력으로 상용 AI 서비스를 제공하는 모습이 보편화될 것이란 설명이다.
이러한 점을 의식한 듯 업계 1위인 엔비디아도 자사 AI 반도체를 학습용, 학습+추론용, 추론용 등으로 세분화하며 전력 소비를 최소화하는 데 집중하고 있다.
다만 엔비디아 추론용 AI 반도체는 태생이 그래픽 처리장치(GPU)라 비효율적인 부분이 있는 만큼 처음부터 AI 모델 실행에 특화되어 설계된 국산 AI 반도체가 기술적으로 충분히 넘어설 수 있다는 게 업계 전문가들의 공통된 의견이다.
한 AI 반도체 업계 고위 관계자는 "어중간한 기술력과 시장 점유율로는 글로벌 시장에서 살아남을 수 없다. 엔비디아를 넘어서는 1위 AI 반도체 기업이 되는 게 사업 목표다"고 포부를 드러냈다.
한편, 국내 AI 반도체 업계에선 과기정통부가 올해 추진하는 'K-클라우드용 AI 반도체 소프트웨어(SW) 기술개발' 사업을 두고 사업 방향성을 정부 주도의 통합 SW·라이브러리 개발보다 개별 AI 반도체 기업이 SW 인력을 지속해서 확충할 수 있게 직접적으로 지원하는 방향으로 바꿔야 한다는 목소리가 커지고 있다.
AI 반도체 기업별로 실리콘 구조가 다른 상황에서 출연연 주도로 개발한 통합 SW·라이브러리는 투자한 예산 대비 효율성이 크게 떨어질 수밖에 없다는 지적이다.
현재 국내 AI 반도체 기업들은 엔비디아 '쿠다' 라이브러리에 대항하기 위해 하드웨어(실리콘) 설계 인력 중심으로 구성되어 있을 것이란 세간의 인식과 달리 SW·라이브러리 개발 인력이 50~70%에 달할 정도로 SW 중심으로 전환한 상태다. 이들은 추론용 AI 반도체와 텐서플로, 파이토치 등 상용 AI 라이브러리를 연결하기 위한 가교 개발에 집중하고 있다.
학습용 AI 반도체는 고대역폭 메모리(HBM)를 탑재함으로써 데이터 처리율을 끌어올린 것이 특징이다. 생산 단가가 비싸고 전력 소비도 많지만, 초거대 AI를 포함해 AI 모델 학습과 추론 어디에나 사용할 수 있는 게 강점이다. 지난해 화제가 된 '그림 그리는 AI(생성 AI)' 실행도 아직은 학습용 AI 반도체에서만 가능하다.
국내 기업이 경쟁력을 가진 추론용 AI 반도체와 달리 학습용 AI 반도체는 엔비디아의 독무대다. 전 세계에서 유일하게 슈퍼컴퓨터(HPC) 학습용 AI 반도체(테슬라 V 시리즈)를 시판하고 있는 데다가, 고대역폭 메모리끼리 빠르게 데이터를 주고받음으로써 AI 모델의 학습 속도를 끌어올리는 기술(NVLink)도 갖추고 있어 대부분의 기업이 AI 모델 학습에 엔비디아 학습용 AI 반도체를 이용한다.
실제로 지난해 11월 출시되어 IT 업계에 충격을 준 오픈AI의 '챗GPT'도 대량의 엔비디아 학습용 AI 반도체로 구성된 마이크로소프트 애저 HPC 클라우드에서 학습을 진행한 바 있다.
다만 학습용 AI 반도체 업계에서도 비용 효율성과 저전력을 확보하려는 움직임이 본격화되고 있다. 60W 내외의 전력을 소모하는 추론용 AI 반도체와 비교해 수백W의 전력을 소모하는 학습용 AI 반도체는 저전력·탄소중립이라는 전 세계적인 추세에 반한다는 것이다.
일례로 처음에는 추론용 AI 반도체로 시작한 구글의 AI 반도체 'TPU'는 지속적인 기술 개발로 현재는 엔비디아와 유일하게 기술적으로 겨룰 수 있는 학습용 AI 반도체라는 평가를 받고 있다. LG AI연구원과 카카오브레인은 구글 AI 반도체를 활용해 초거대 AI 모델을 학습시키고 있다.
학습용 AI 반도체는 반도체 기술과 함께 한국이 전 세계 최고 수준 기술을 보유한 고대역폭 메모리가 중요한 만큼 국내 AI 반도체 기업이 오히려 선도할 수 있는 분야라는 의견도 있다. 이에 사피온은 SK하이닉스와 함께 차세대 고대역폭 메모리인 'HBM3'를 활용한 학습용 AI 반도체 공동 개발에 착수하고 2025년 상용화하겠다는 목표를 제시하기도 했다. SK하이닉스 입장에서도 수요처가 엔비디아·AMD·인텔 등에 한정된 HBM 메모리의 공급을 확대할 수 있는 이점이 있다.
◆추론·학습 별개 시장...AI 반도체 SW 개발 개별 기업 주도로 해야
업계에선 장기적으론 추론용 AI 반도체와 학습용 AI 반도체가 별개 시장을 이루며 공존할 것으로 보고 있다. 학습용 AI 반도체로 빠르게 AI 모델을 고도화하고, 이를 추론용 AI 반도체와 연결해 저비용·저전력으로 상용 AI 서비스를 제공하는 모습이 보편화될 것이란 설명이다.
이러한 점을 의식한 듯 업계 1위인 엔비디아도 자사 AI 반도체를 학습용, 학습+추론용, 추론용 등으로 세분화하며 전력 소비를 최소화하는 데 집중하고 있다.
다만 엔비디아 추론용 AI 반도체는 태생이 그래픽 처리장치(GPU)라 비효율적인 부분이 있는 만큼 처음부터 AI 모델 실행에 특화되어 설계된 국산 AI 반도체가 기술적으로 충분히 넘어설 수 있다는 게 업계 전문가들의 공통된 의견이다.
한 AI 반도체 업계 고위 관계자는 "어중간한 기술력과 시장 점유율로는 글로벌 시장에서 살아남을 수 없다. 엔비디아를 넘어서는 1위 AI 반도체 기업이 되는 게 사업 목표다"고 포부를 드러냈다.
한편, 국내 AI 반도체 업계에선 과기정통부가 올해 추진하는 'K-클라우드용 AI 반도체 소프트웨어(SW) 기술개발' 사업을 두고 사업 방향성을 정부 주도의 통합 SW·라이브러리 개발보다 개별 AI 반도체 기업이 SW 인력을 지속해서 확충할 수 있게 직접적으로 지원하는 방향으로 바꿔야 한다는 목소리가 커지고 있다.
AI 반도체 기업별로 실리콘 구조가 다른 상황에서 출연연 주도로 개발한 통합 SW·라이브러리는 투자한 예산 대비 효율성이 크게 떨어질 수밖에 없다는 지적이다.
현재 국내 AI 반도체 기업들은 엔비디아 '쿠다' 라이브러리에 대항하기 위해 하드웨어(실리콘) 설계 인력 중심으로 구성되어 있을 것이란 세간의 인식과 달리 SW·라이브러리 개발 인력이 50~70%에 달할 정도로 SW 중심으로 전환한 상태다. 이들은 추론용 AI 반도체와 텐서플로, 파이토치 등 상용 AI 라이브러리를 연결하기 위한 가교 개발에 집중하고 있다.