[Tech in Trend] '클라우드 슈퍼컴퓨터' 선두 MS, AI 혁명 앞당겨
2023-03-27 00:05
'애저 AI' 솔루션으로 AI 모델 개발 전 과정 도와
MS 다국어 처리, 오픈AI 화가·코딩 AI 기술 지원
스포츠·유통업 콘텐츠 생성, 제조업 운영 최적화
하드웨어·소프트웨어 노하우로 애저 슈퍼컴 개발
"다른 곳에도 초거대 AI 훈련 인프라 지원 가능"
MS 다국어 처리, 오픈AI 화가·코딩 AI 기술 지원
스포츠·유통업 콘텐츠 생성, 제조업 운영 최적화
하드웨어·소프트웨어 노하우로 애저 슈퍼컴 개발
"다른 곳에도 초거대 AI 훈련 인프라 지원 가능"
26일 MS에 따르면 데이터 준비부터 모델 관리까지 머신러닝 개발 과정 전반을 돕는 도구를 ‘애저 AI’ 클라우드 솔루션으로 제공한다. 데이터 과학자와 머신러닝 엔지니어는 애저 AI를 이용해 여러 AI 모델을 구축·학습·배치·운영할 수 있다. 애저 AI 주요 기능과 서비스는 ‘애저 코그니티브 서비스(Azure Cognitive Services)’ ‘애저 응용 AI 서비스(Azure Applied AI Services)’ ‘애저 머신러닝(Azure Machine Learning)’ 등 세 분야로 나뉜다.
특히 애저 코그니티브 서비스는 컴퓨터로 시각, 음성, 언어, 의사결정 등 인지 기능을 수행하게 하는 클라우드 기반 애플리케이션 프로그래밍 인터페이스(API) 상품군이다. 챗GPT의 기반 기술인 생성(generative) AI 모델을 쓸 수 있는 ‘애저 오픈AI 서비스(Azure OpenAI Service)’가 이 상품군 중 일부로 올해 1월 공식 출시됐다. 애저 오픈AI 서비스는 애저 클라우드의 보안, 규제 준수, 데이터 보호, 책임 있는 AI 기능을 지원한다.
MS는 이제 전 세계 클라우드 고객에게 이메일 초안 작성, 법률 문서 요약, 저녁 식사 메뉴 추천, 소프트웨어 프로그래밍을 위한 코드 검색, 장난감 신제품 스케치 등 AI 기반 추론 기능에 대한 작업 결과를 더 빠르게 제공하는 데 투자하고 있다. MS는 현재 애저 데이터센터 60여 곳에 추론용 GPU를 배포했다. 오픈 소스 추론 엔진 ‘ONNX 런타임(Runtime)’으로 최적화한 시스템에서 하루에 1조건 이상 추론을 실행한다.
애저 클라우드를 활용하는 초거대 AI 모델 R&D 사례로 MS의 다국어 처리 AI 개발을 위한 ‘프로젝트 튜링’과 그 구성 요소인 고성능 모델 ‘프로젝트 Z-Code’ ‘Z-Code++’ 그리고 이미지 인식 모델 ‘프로젝트 플로렌스(Florence)’ 등이 있다. 오픈AI의 글 쓰는 AI 모델 ‘GPT’ 시리즈와 그림을 그리는 ‘달리’ 시리즈, 10여 가지 프로그래밍 언어로 소프트웨어 코드를 만들어내는 ‘코덱스’ 또한 MS의 인프라를 활용해 훈련했다.
◆농구 영상중계, 자동차 리뷰까지 요약 OK
카맥스는 당초 오픈AI의 API로 시작한 작업을 애저 오픈AI 서비스로 큰 어려움 없이 이전했다. 보유 차량 규모가 큰 만큼 책임 있는 AI, 보안, 규제 준수와 같은 기업용 기능을 활용하기 위해 내린 결정이었다.
캐리 뷰스 마텔 퓨처랩 디자인 총괄은 “(디자인 아이디어 도출 과정에서) 가장 중요한 것은 질이지만 때로는 양이 훌륭한 질을 찾아 주는 방법이 된다”면서 달리2의 이미지 생성 AI 기술이 디자이너에게 다양한 아이디어를 떠올릴 수 있게 해 주는 도구라는 점을 긍정적으로 평가했다.
다국적 회계 컨설팅 기업 KPMG는 애저 오픈AI 서비스를 활용해 고객사에 대해 납세 투명성 개선을 지원했다. 복잡한 IT 시스템과 방대한 데이터 안에서 데이터 간 관계를 찾아 세금 납부 액수 정확성을 검증하고 국가와 세금 유형별로 분류해 기업 고객 수요를 충족했다.
대화형 AI 플랫폼을 제공하는 스타트업 무브웍스(Moveworks)는 애저 오픈AI 서비스를 통해 이용자 간 지식 격차를 식별하고 과거에 없었던 문의 사례를 해결했다. AI가 IT와 HR 부서 대신 이용자에게 제공돼야 하는 새로운 지식 조항을 자동 생성해 제공함으로써 인간 담당자의 시간을 절약했고 셀프서비스 수준도 개선했다.
◆스마트TV, 전기차 서비스 안정성 높여
삼성전자는 스마트TV 서비스 개선을 위해 애저 응용 AI 서비스에 포함된 ‘애저 메트릭스 어드바이저(Azure Metrics Advisor)’를 활용했다. 애저 메트릭스 어드바이저는 서비스 운영 안정성과 성능을 나타내는 지표들을 관찰·추적하고 장애나 과부하 등 문제가 발생했을 때 이를 진단하는 AI 서비스다. 삼성전자 R&D센터 엔지니어는 이 서비스를 활용해 문제에 대한 원인을 빠르게 분석하고 서비스가 중단되는 상황을 방지할 수 있다.
MS는 기업 규모와 상황에 맞는 머신러닝 모델 구축·훈련·배포를 지원하기 위해 전체 머신러닝 단계를 최적화하는 클라우드 기반 모델 개발·운영 관리(MLOps) 플랫폼으로 애저 머신러닝을 제공한다. 애저 머신러닝은 데이터 과학자, 데이터 설계자, 비즈니스 분석가, 인프라 담당자 등 기업 내 담당 부서가 데이터·모델·프로세스를 이해하고 적절하게 보호·통제하도록 지원하는 MLOps 도구다.
현대자동차는 애저 클라우드에 전기차 배터리 자산관리 플랫폼을 구축했다. 애저 머신러닝을 포함하는 애저 AI로 주행·배터리 작동 패턴을 분석해 열화 요인을 파악하고 배터리 수명을 예측하고 있다.
국제 배송업체 페덱스(FedEx)는 애저 머신러닝을 포함한 AI 기술을 활용해 택배 분석 솔루션을 개발했다. 택배 사업에 대한 실시간 가시성을 높여 서비스 관련 고객 요청을 감축했다. 택배 관련 문의 처리량을 늘리고 지속적인 혁신 기반을 마련했다.
◆초거대 AI 시스템 운영 노하우 대중화
MS에 따르면 오픈AI는 혁신적 AI 서비스를 구축할 수 있다는 아이디어를 약 5년 전에 MS에 제안했다. 오픈AI는 챗GPT, 달리2 등과 같이 사람들이 컴퓨터와 상호작용하는 방식을 바꿀 만한 서비스를 만들기 위해 자체 조달할 수 있는 것보다 훨씬 많은 컴퓨팅 성능을 제공하는 시스템을 활용해야 했다. 애저는 이런 상황에 알맞은 확장성을 제공하는 클라우드로 오픈AI뿐 아니라 메타, 허깅페이스, AMD 등 AI 혁신 전략을 지원하고 있다.
나이디 샤펠 MS 애저 HPC·AI 제품 책임자는 “큰 모델을 연구하면서 알게 된 사실 하나는 더 많은 데이터를 갖고 더 오랫동안 훈련할 수 있을 때 모델 정확도가 더 높아진다는 점”이라며 “더 큰 모델을 더 오랫동안 훈련해야 하는 큰 이유가 있고, 이는 인프라를 최대한 보유해야 할 뿐만 아니라 이것을 오랫동안 안정적으로 가동할 수 있어야 한다는 것을 의미한다”고 설명했다.
이에 MS와 오픈AI는 2019년 파트너십을 맺고 AI 혁신을 가속하며 초거대 AI의 이점을 많은 사람에게 나눠 줄 애저 AI 슈퍼컴퓨팅 기술 R&D에 협력해 왔으며 올해 이 파트너십을 연장했다. 양사는 오픈AI가 더 강력한 초거대 AI 모델을 훈련하도록 설계된 전용 슈퍼컴퓨터 자원을 애저 클라우드에 구축하고 있다. 이는 엔비디아의 HPC용 고출력·저지연 통신 ‘인피니밴드’로 연결된 AI 최적 그래픽처리장치(GPU) 수천 개를 포함한다.
MS는 수년 동안 매개변수 수십 조개를 다루는 모델을 훈련하는 능력을 키우면서 이런 슈퍼컴퓨터 시스템의 GPU와 통신 장비를 효과적으로 활용하는 소프트웨어 기술을 함께 개발해 왔다. 인피니밴드 통신과 GPU 처리 성능을 확장하면서 냉각 시스템, 무정전 전원 장치, 백업 발전기 등 전체 시스템을 지속해서 가동하는 데 필요한 데이터센터 인프라의 확장 가능성도 가늠했다.
에릭 보이드 MS AI 플랫폼 담당 부사장은 “(오픈AI와 협력해 초거대 AI용 슈퍼컴퓨터 인프라를 만들면서) 대규모 훈련 워크로드 지원에 중점을 둔 특수 목적 클러스터를 구축해야 한다는 것을 알았고, 우리는 그들과 협력해 AI 훈련 환경을 구축할 때 필요한 핵심 사항이 무엇인지 파악했다”며 “우리는 이 방식을 표준화했기 때문에 이제 같은 유형의 인프라를 원하는 다른 사람들에게도 이걸 제공할 수 있다”고 말했다.
매년 상·하반기에 발표되는 ‘톱500’ 리스트에는 MS 기술로 구현된 애저 클라우드 기반 슈퍼컴퓨터 ‘보이저-EUS2(Voyager-EUS2)’가 올라 있다. 톱500은 전 세계 슈퍼컴퓨터를 성능 순으로 정리한 명단으로, 각국 슈퍼컴퓨터 시스템 분야 투자와 기술 경쟁 지형을 상징한다. MS의 보이저-EUS2는 2021년 11월 전 세계 10위에 처음 진입했고 2022년 11월 발표된 최신 톱500 목록에도 14위에 올랐다.