21일 반도체 업계에 따르면 마크 저커버그 메타 최고경영자는 지난 18일(현지시간) SNS에 회사의 초거대 AI 전략에 관한 글을 올리며 “페이스북 AI 서비스 운영에 자체 설계한 AI 반도체를 적극 활용하고 있다”고 밝혔다.
메타가 자체 개발한 AI 반도체는 △MSVP(메타 비디오 업스케일 프로세서) △MTIA(메타 AI 학습 및 추론 가속기) 등 2종이다.
알렉시스 비욜린 메타 인프라 담당 부사장은 “자체 AI 반도체를 개발하는데 많은 비용을 투자했지만 (AI 반도체 도입을 통한) 데이터센터 성능 향상과 운영비 절감으로 이를 상쇄할 수 있을 것”이라고 설명했다.
국내에선 SK 계열 AI 반도체 업체인 사피온이 자사 AI 반도체와 SK텔레콤 AI 업스케일 서비스 ‘슈퍼노바’를 결합해 미국 방송사·이동통신사 등에 수출하는 성과를 낸 바 있다.
MTIA는 적은 전력 소모로도 AI 학습과 추론(실행)을 할 수 있는 게 특징이다. 기존 엔비디아의 AI 학습·추론용 반도체는 200~300W(와트)의 전력을 소모하지만 MTIA는 25W라는 적은 전력 소모로도 우수한 AI 운영 효율을 낸다는 게 메타 측의 설명이다.
비욜린 부사장은 “메타는 MTIA를 활용해 이용자에게 콘텐츠 및 광고를 추천하는 데 필요한 AI를 운영하고 있다. 메타 추천 알고리즘 강화의 핵심 인프라”라고 밝혔다.
네이버에서 AI 반도체 설계를 총괄하는 이동수 네이버클라우드 이사는 “메타의 발표는 빅테크들이 AI 칩(반도체)에 대한 열정이 대단하다는 점을 보여준다. 적은 전력 소모로도 메타의 워크로드(서비스)에 최적화되도록 신경 쓴 것이 인상적”이라고 평가했다.
두 AI 반도체는 대만 TSMC의 7nm 공정에서 만들어졌고, 메타가 자체 개발한 AI 모델 라이브러리 ‘파이토치’에 최적화돼 있다. 메타는 향후 두 AI 반도체를 활용한 생성 AI 서비스를 공개할 방침이다.
비욜린 부사장은 “메타는 클라우드 사업을 하지 않기 때문에 AI 반도체를 외부에 공개할 필요가 없다”며 “메타의 초거대 AI 사업 전반에 대한 이해를 높이기 위해 공개를 결정했다”고 전했다.
◆구글·아마존은 클라우드로 외부 공개...MS도 2024년 공개 예정
메타가 AI 반도체를 공개함에 따라 주요 빅테크는 모두 자체 AI 반도체를 개발해서 상용화한 것이 확인됐다.
가장 먼저 AI 반도체 개발에 착수한 곳은 구글이다. 구글은 지난 2015년 브로드컴과 협력해 자체 AI 반도체 TPU(텐서플로유닛)를 개발해 사내 서비스에 적용한 데 이어 2017년에는 구글 클라우드 서비스를 통해 외부 기업에 공개했다.
초기 모델인 ‘TPU v1’은 AI 모델 추론에 특화됐으나 최신 모델인 ‘TPU v4’는 AI 모델 학습에 더 높은 효율을 보이는 것으로 알려졌다. A100, H100 등 엔비디아의 AI 반도체와 모델 학습 성능으로 겨룰 수 있는 유일한 제품이다. 실제로 구글은 자사의 초거대 언어모델 ‘팜(PALM)’ 학습에 4000개 이상의 TPU를 병렬 연결하는 형태로 활용한 바 있다. 국내에선 LG AI 연구원과 카카오브레인이 각각 초거대 언어모델 ‘엑사원’과 ‘KoGPT’ 모델 학습에 TPU를 활용했다.
아마존의 클라우드 사업부서인 아마존웹서비스(AWS)는 지난 2019년 이스라엘의 팹리스 안나푸르나랩을 인수해 추론용 AI 반도체 ‘인퍼런시아(Inferentia)’를 클라우드로 공개한 데 이어 지난해에는 학습용 AI 반도체 ‘트레이니엄(Trainium)’을 선보였다.
최근 공개한 인퍼런시아2는 추론용 AI 반도체에 중요한 지연 시간이 기존 모델 대비 10배 줄어들었고, 트레이니엄은 학습용 AI 반도체에 중요한 메모리 간 데이터 전송속도가 1600Gbps에 달하는 것이 특징이다.
이달 초 열린 AWS 서밋 서울에서 난디니 라마니 AWS 부사장은 “AI 모델의 파라미터(매개변수)가 수백억개가 넘는 상황에서 AWS는 자체 개발한 AI 반도체를 포함한 AI 모델 학습·추론 플랫폼 ‘배드록’으로 기업의 수요에 대응할 것”이라고 말했다.
ASIC(주문형 반도체) 대신 FPGA(용도변경 반도체)에 주력했던 것으로 알려졌던 마이크로소프트도 ASIC 형태의 AI 반도체 아테나를 개발해 자사 AI 서비스 운영해 활용할 방침이다. 마이크로소프트와 AMD가 공동 개발하는 아테나는 2024년 중 실물이 공개될 것으로 알려졌다.
빅테크들이 일제히 AI 반도체를 개발·상용화하는 이유는 AI 서비스 운영에 필요한 천문학적인 비용을 절감하기 위함이다.
딜런 파텔 세미애널리시스 수석 애널리스트는 보고서를 통해 “현재 오픈AI의 챗GPT 운영 비용은 하루 70만 달러(약 9억원), 쿼리(질문)당 36센트에 달할 것”이라며 “챗GPT 학습·추론에 막대한 AI 반도체와 전력 사용료가 필요하기 때문”이라고 분석했다.
챗GPT는 현재 마이크로소프트 미국 애리조나 애저HPC 클라우드 데이터센터에 위치한 약 1만개의 AI 반도체에서 운영되고 있는 것으로 알려졌다.
빅테크는 자사 AI 서비스와 소형 AI를 자체 개발한 AI 반도체에 특화함으로써 AI 반도체 도입 비용과 전력 사용료를 최대 90% 절감할 수 있을 것으로 기대하고 있다.
윤동식 KT클라우드 대표는 “초거대 AI는 모델 학습·추론에 천문학적인 운영비(전기료)가 필요하다. KT클라우드는 AI 운영 비용에 대한 고민이 큰 기업을 위해 리벨리온의 AI 반도체 '아톰'을 클라우드에서 제공한다. 아톰은 엔비디아 AI 반도체 대비 전력대성능비(TDP)가 5분의 1 수준에 불과하면서 더 우수한 AI 모델 추론 성능을 낸다”고 AI 반도체의 필요성에 대해 설명했다.
◆"탈 엔비디아 능사 아냐"...네이버는 자체 반도체 개발과 엔비디아 확충 병행
빅테크들이 일제히 AI 반도체를 공개했지만, 전문가들은 이를 탈(脫) 엔비디아 행보로 확대 해석하는 것은 경계해야 한다고 밝혔다.
현재 초거대 AI를 학습·추론할 수 있는 AI 반도체는 사실상 엔비디아가 독점 생산하고 있으며, 빅테크들이 앞다퉈 엔비디아 AI 반도체 확보에 나서고 있다는 것이다. 빅테크가 자체 개발한 AI 반도체는 당분간 초거대 AI보다 매개변수가 적은 소형 AI나 △사람·사물 인식 △동영상 화질 향상 △자율주행차 등 특화 AI에 활용될 전망이다.
이동수 네이버클라우드 이사는 “HBM(고대역 메모리)을 쓰는 엔비디아 AI 반도체에 비해 빅테크의 AI 반도체는 초거대 AI로 갈수록 성능 부족 문제에 부딪힐 수밖에 없다. 메타도 자사 AI 반도체를 한정된 시스템에만 활용하고 있다고 강조하는 게 그 증거”라며 “AI 반도체 시장에서 점유율 100%에 가까운 엔비디아의 경쟁력을 쿠다(CUDA) 라이브러리, 텐서코어뿐 아니라 HBM, NV링크 등에서도 찾아야 한다”고 설명했다.
엔비디아가 AI 반도체 핵심 설계 기술과 하드웨어-AI 모델 간 연결뿐 아니라 대용량 데이터 처리를 위한 인터페이스에도 강점이 있다는 주장으로 풀이된다.
그는 “빅테크의 AI 반도체는 성능보다 이를 자사 AI 모델에 최적화하려는 노력에 주목해야 한다”며 “국내 AI 반도체 회사가 성공하려면 경쟁력 있는 AI 서비스를 제공하는 회사와 연합해야 한다”고 덧붙였다.
네이버도 빅테크와 마찬가지로 소형·특화 AI 추론을 위한 자체 AI 반도체를 개발하면서 초거대 AI 학습·추론을 위한 엔비디아 AI 반도체 확보에도 총력을 기울이고 있다. 네이버클라우드와 삼성전자가 함께 진행 중인 AI 반도체 설계 사업과 별개로 곽용재 네이버클라우드 CTO(최고기술책임자)는 지난달 엔비디아 관계자와 만나 하이퍼클로바X 운영을 위한 AI 반도체 공급 방안에 대해 논의한 것으로 알려졌다. 네이버클라우드 사내에선 AI 반도체 확충을 위해 모회사 네이버의 유상증자를 요청하는 목소리도 커지고 있다.