[Tech in Trend] '클라우드 슈퍼컴퓨터' 선두 MS, AI 혁명 앞당겨

2023-03-27 00:05
'애저 AI' 솔루션으로 AI 모델 개발 전 과정 도와
MS 다국어 처리, 오픈AI 화가·코딩 AI 기술 지원
스포츠·유통업 콘텐츠 생성, 제조업 운영 최적화
하드웨어·소프트웨어 노하우로 애저 슈퍼컴 개발
"다른 곳에도 초거대 AI 훈련 인프라 지원 가능"

[사진=게티이미지뱅크]

마이크로소프트(MS)가 자체 클라우드 서비스 인프라에 구축한 슈퍼컴퓨터를 통해 인공지능(AI) 혁명을 앞당기고 있다. MS에서 투자를 받은 오픈AI의 ‘챗GPT(ChatGPT)’와 이 기술을 MS 검색 엔진에 심은 ‘새로운 빙(New Bing)’ 등 혁신 서비스의 초거대 AI 모델 개발을 애저(Azure) 클라우드 기반 슈퍼컴퓨터 기술로 실현했고 동시에 전 세계 고객사 비즈니스와 MS 기업용 생산성 소프트웨어로 AI를 활용한 혁신 사례를 선보이고 있다.

26일 MS에 따르면 데이터 준비부터 모델 관리까지 머신러닝 개발 과정 전반을 돕는 도구를 ‘애저 AI’ 클라우드 솔루션으로 제공한다. 데이터 과학자와 머신러닝 엔지니어는 애저 AI를 이용해 여러 AI 모델을 구축·학습·배치·운영할 수 있다. 애저 AI 주요 기능과 서비스는 ‘애저 코그니티브 서비스(Azure Cognitive Services)’ ‘애저 응용 AI 서비스(Azure Applied AI Services)’ ‘애저 머신러닝(Azure Machine Learning)’ 등 세 분야로 나뉜다.

특히 애저 코그니티브 서비스는 컴퓨터로 시각, 음성, 언어, 의사결정 등 인지 기능을 수행하게 하는 클라우드 기반 애플리케이션 프로그래밍 인터페이스(API) 상품군이다. 챗GPT의 기반 기술인 생성(generative) AI 모델을 쓸 수 있는 ‘애저 오픈AI 서비스(Azure OpenAI Service)’가 이 상품군 중 일부로 올해 1월 공식 출시됐다. 애저 오픈AI 서비스는 애저 클라우드의 보안, 규제 준수, 데이터 보호, 책임 있는 AI 기능을 지원한다.

MS는 이제 전 세계 클라우드 고객에게 이메일 초안 작성, 법률 문서 요약, 저녁 식사 메뉴 추천, 소프트웨어 프로그래밍을 위한 코드 검색, 장난감 신제품 스케치 등 AI 기반 추론 기능에 대한 작업 결과를 더 빠르게 제공하는 데 투자하고 있다. MS는 현재 애저 데이터센터 60여 곳에 추론용 GPU를 배포했다. 오픈 소스 추론 엔진 ‘ONNX 런타임(Runtime)’으로 최적화한 시스템에서 하루에 1조건 이상 추론을 실행한다.

애저 클라우드를 활용하는 초거대 AI 모델 R&D 사례로 MS의 다국어 처리 AI 개발을 위한 ‘프로젝트 튜링’과 그 구성 요소인 고성능 모델 ‘프로젝트 Z-Code’ ‘Z-Code++’ 그리고 이미지 인식 모델 ‘프로젝트 플로렌스(Florence)’ 등이 있다. 오픈AI의 글 쓰는 AI 모델 ‘GPT’ 시리즈와 그림을 그리는 ‘달리’ 시리즈, 10여 가지 프로그래밍 언어로 소프트웨어 코드를 만들어내는 ‘코덱스’ 또한 MS의 인프라를 활용해 훈련했다.

◆농구 영상중계, 자동차 리뷰까지 요약 OK
 

농구 영상 중계 해설을 인식해 텍스트로 요약하는 AI. [사진=마이크로소프트]

MS는 애저 오픈AI 서비스 선도 활용 사례 중 하나로 미국여자프로농구(WNBA) 플레이오프 콘텐츠 생성 자동화 앱을 소개했다. 이 앱이 TV로 생중계되는 경기 해설 음성을 자동 기록하고 주요 경기 내용을 한두 문장으로 요약한 다음 스포츠 팬을 위한 블로그 콘텐츠를 생성하는 과정에 MS의 깃허브 코파일럿(GitHub Copilot)과 오픈AI의 GPT-3가 활용됐다. AI가 인간이 주문한 대로 앱을 개발하고 시간별 경기 요약 콘텐츠를 써냈다.

자동차 4만5000여 대를 보유한 미국 중고차 판매 업체 카맥스(CarMAX)는 차종, 관련 기사, 고객 리뷰 등 관련 정보를 요약해 잠재 고객에게 효율적으로 제공하는 검색 웹사이트를 제작했다. 특정 차량에 대한 후기 수천 건을 자동으로 요약한 문장 몇 줄을 만들고 카맥스 직원이 텍스트 문맥과 브랜드 적합도를 검토해 승인하는 방식으로 수작업이면 11년이 걸릴 업무를 몇 달 만에 해냈다. 카맥스 웹사이트에는 2018 기아 소렌토 페이지처럼 특정 차량 신기능, 관련 기사와 고객 리뷰 요약 등을 AI가 생성한 콘텐츠도 있다.

카맥스는 당초 오픈AI의 API로 시작한 작업을 애저 오픈AI 서비스로 큰 어려움 없이 이전했다. 보유 차량 규모가 큰 만큼 책임 있는 AI, 보안, 규제 준수와 같은 기업용 기능을 활용하기 위해 내린 결정이었다. 
 

AI를 활용한 장난감 자동차 신제품 디자인. [사진=마이크로소프트]

바비인형으로 유명한 장난감 제조사 마텔(Mattel)은 애저 오픈AI 서비스의 ‘달리2(DALL·E 2)’ 기술로 장난감 자동차 ‘핫휠’ 신모델을 디자인했다. 달리2는 텍스트를 입력해 사용자 맞춤 이미지를 만드는 ‘AI 화가’다. 디자이너가 달리2에 ‘클래식 자동차 모델(A scale model of a classic car)’이라고 입력해 기본 도안을 만들고 ‘컨버터블로 만들어(Make it a convertible)’라는 문구 등으로 수정을 거쳐 설계에 필요한 이미지 수십 장을 만들었다.

캐리 뷰스 마텔 퓨처랩 디자인 총괄은 “(디자인 아이디어 도출 과정에서) 가장 중요한 것은 질이지만 때로는 양이 훌륭한 질을 찾아 주는 방법이 된다”면서 달리2의 이미지 생성 AI 기술이 디자이너에게 다양한 아이디어를 떠올릴 수 있게 해 주는 도구라는 점을 긍정적으로 평가했다.

다국적 회계 컨설팅 기업 KPMG는 애저 오픈AI 서비스를 활용해 고객사에 대해 납세 투명성 개선을 지원했다. 복잡한 IT 시스템과 방대한 데이터 안에서 데이터 간 관계를 찾아 세금 납부 액수 정확성을 검증하고 국가와 세금 유형별로 분류해 기업 고객 수요를 충족했다.

대화형 AI 플랫폼을 제공하는 스타트업 무브웍스(Moveworks)는 애저 오픈AI 서비스를 통해 이용자 간 지식 격차를 식별하고 과거에 없었던 문의 사례를 해결했다. AI가 IT와 HR 부서 대신 이용자에게 제공돼야 하는 새로운 지식 조항을 자동 생성해 제공함으로써 인간 담당자의 시간을 절약했고 셀프서비스 수준도 개선했다.

◆스마트TV, 전기차 서비스 안정성 높여
 

[사진=마이크로소프트]

MS는 애저 오픈AI 서비스를 포함하는 애저 코그니티브 서비스에 작업별 AI와 비즈니스 로직을 통합한 솔루션으로 애저 응용 AI 서비스를 제공하고 있다. 애저 응용 AI 서비스는 기업 환경에서 많은 시간을 들여 구축하는 문서 처리, 지표 모니터링, 엔터프라이즈 검색, 비디오 분석, 챗봇 등 시스템과 앱을 더 쉽게 쓸 수 있도록 지원한다. 기업은 이를 활용해 일반 업무 프로세스를 효율화하고 비즈니스 가치를 향상시킬 수 있다.

삼성전자는 스마트TV 서비스 개선을 위해 애저 응용 AI 서비스에 포함된 ‘애저 메트릭스 어드바이저(Azure Metrics Advisor)’를 활용했다. 애저 메트릭스 어드바이저는 서비스 운영 안정성과 성능을 나타내는 지표들을 관찰·추적하고 장애나 과부하 등 문제가 발생했을 때 이를 진단하는 AI 서비스다. 삼성전자 R&D센터 엔지니어는 이 서비스를 활용해 문제에 대한 원인을 빠르게 분석하고 서비스가 중단되는 상황을 방지할 수 있다.

MS는 기업 규모와 상황에 맞는 머신러닝 모델 구축·훈련·배포를 지원하기 위해 전체 머신러닝 단계를 최적화하는 클라우드 기반 모델 개발·운영 관리(MLOps) 플랫폼으로 애저 머신러닝을 제공한다. 애저 머신러닝은 데이터 과학자, 데이터 설계자, 비즈니스 분석가, 인프라 담당자 등 기업 내 담당 부서가 데이터·모델·프로세스를 이해하고 적절하게 보호·통제하도록 지원하는 MLOps 도구다.

현대자동차는 애저 클라우드에 전기차 배터리 자산관리 플랫폼을 구축했다. 애저 머신러닝을 포함하는 애저 AI로 주행·배터리 작동 패턴을 분석해 열화 요인을 파악하고 배터리 수명을 예측하고 있다.

국제 배송업체 페덱스(FedEx)는 애저 머신러닝을 포함한 AI 기술을 활용해 택배 분석 솔루션을 개발했다. 택배 사업에 대한 실시간 가시성을 높여 서비스 관련 고객 요청을 감축했다. 택배 관련 문의 처리량을 늘리고 지속적인 혁신 기반을 마련했다.

◆초거대 AI 시스템 운영 노하우 대중화
 

마이크로소프트가 AI 추론용 GPU를 배포한 시설 중 하나인 미국 워싱턴주 애저 데이터센터. [사진=마이크로소프트]

MS는 과거 독립적인 슈퍼컴퓨터 구축에 쓰이던 고성능컴퓨팅(HPC) 전문 지식을 클라우드에 활용했다. 앞서 오피스 워드 프로그램의 자동 맞춤법 검사기, 파워포인트 사진 캡션 작성 기능, 100여 개 언어를 지원하는 번역기 등 사람들이 언어를 효율적으로 사용하도록 돕는 자체 AI 모델을 개발해 왔다. 이 기능을 향상하면서 고객이 AI 도구를 사용하는 맞춤형 AI 앱을 개발·학습·배포하는 서비스를 애저 클라우드 전반으로 확장했다.

MS에 따르면 오픈AI는 혁신적 AI 서비스를 구축할 수 있다는 아이디어를 약 5년 전에 MS에 제안했다. 오픈AI는 챗GPT, 달리2 등과 같이 사람들이 컴퓨터와 상호작용하는 방식을 바꿀 만한 서비스를 만들기 위해 자체 조달할 수 있는 것보다 훨씬 많은 컴퓨팅 성능을 제공하는 시스템을 활용해야 했다. 애저는 이런 상황에 알맞은 확장성을 제공하는 클라우드로 오픈AI뿐 아니라 메타, 허깅페이스, AMD 등 AI 혁신 전략을 지원하고 있다.

나이디 샤펠 MS 애저 HPC·AI 제품 책임자는 “큰 모델을 연구하면서 알게 된 사실 하나는 더 많은 데이터를 갖고 더 오랫동안 훈련할 수 있을 때 모델 정확도가 더 높아진다는 점”이라며 “더 큰 모델을 더 오랫동안 훈련해야 하는 큰 이유가 있고, 이는 인프라를 최대한 보유해야 할 뿐만 아니라 이것을 오랫동안 안정적으로 가동할 수 있어야 한다는 것을 의미한다”고 설명했다.

이에 MS와 오픈AI는 2019년 파트너십을 맺고 AI 혁신을 가속하며 초거대 AI의 이점을 많은 사람에게 나눠 줄 애저 AI 슈퍼컴퓨팅 기술 R&D에 협력해 왔으며 올해 이 파트너십을 연장했다. 양사는 오픈AI가 더 강력한 초거대 AI 모델을 훈련하도록 설계된 전용 슈퍼컴퓨터 자원을 애저 클라우드에 구축하고 있다. 이는 엔비디아의 HPC용 고출력·저지연 통신 ‘인피니밴드’로 연결된 AI 최적 그래픽처리장치(GPU) 수천 개를 포함한다.
 

[사진=마이크로소프트]

초거대 AI 모델 훈련을 가속하려면 훈련 중 일부인 계산 작업을 애저 슈퍼컴퓨터 시스템을 구성하는 여러 컴퓨터 군집(cluster)에 탑재한 최신 고성능 GPU 수천 개에 나눠 보내야 한다. ‘올리듀스(allreduce)’라고 불리는 특정 단계에 GPU는 수행한 계산 작업에 대한 정보를 교환하는데, 이 단계는 GPU가 다음 계산을 시작하기 전에 끝나야 한다. 인피니밴드 통신 기술은 이 단계의 수행 속도를 높여 준다.

MS는 수년 동안 매개변수 수십 조개를 다루는 모델을 훈련하는 능력을 키우면서 이런 슈퍼컴퓨터 시스템의 GPU와 통신 장비를 효과적으로 활용하는 소프트웨어 기술을 함께 개발해 왔다. 인피니밴드 통신과 GPU 처리 성능을 확장하면서 냉각 시스템, 무정전 전원 장치, 백업 발전기 등 전체 시스템을 지속해서 가동하는 데 필요한 데이터센터 인프라의 확장 가능성도 가늠했다.

에릭 보이드 MS AI 플랫폼 담당 부사장은 “(오픈AI와 협력해 초거대 AI용 슈퍼컴퓨터 인프라를 만들면서) 대규모 훈련 워크로드 지원에 중점을 둔 특수 목적 클러스터를 구축해야 한다는 것을 알았고, 우리는 그들과 협력해 AI 훈련 환경을 구축할 때 필요한 핵심 사항이 무엇인지 파악했다”며 “우리는 이 방식을 표준화했기 때문에 이제 같은 유형의 인프라를 원하는 다른 사람들에게도 이걸 제공할 수 있다”고 말했다.

매년 상·하반기에 발표되는 ‘톱500’ 리스트에는 MS 기술로 구현된 애저 클라우드 기반 슈퍼컴퓨터 ‘보이저-EUS2(Voyager-EUS2)’가 올라 있다. 톱500은 전 세계 슈퍼컴퓨터를 성능 순으로 정리한 명단으로, 각국 슈퍼컴퓨터 시스템 분야 투자와 기술 경쟁 지형을 상징한다. MS의 보이저-EUS2는 2021년 11월 전 세계 10위에 처음 진입했고 2022년 11월 발표된 최신 톱500 목록에도 14위에 올랐다.
 

[그래픽=김효곤 기자]