아마존웹서비스, AI 학습 특화 칩 공개…내년 클라우드로 제공

2020-12-02 17:53
커스텀칩 품은 'AWS 트레이니엄' 내년 출시 예고
커스텀 ARM기반 '그래비톤' 인스턴스 업그레이드
인텔 AI칩 '하바나 가우디' 인스턴스도 내년 출시
컨테이너 관리솔루션 ECS·EKS 구축형 버전 제공
구축형 SAN 스토리지 대체할 클라우드SAN 공개

아마존웹서비스(AWS)가 머신러닝 모델 학습(training)에 특화된 프로세서를 'AWS 트레이니엄(Trainium)'이라는 이름으로 선보였다. AWS 트레이니엄은 텐서플로(TensorFlow), 파이토치(PyTorch), 엠엑스넷(MXNet) 프레임워크를 활용한 머신러닝 모델 제작 효율을 높여 준다.

AWS는 자사 클라우드서비스에서 이 반도체 칩을 활용하면 다른 어떤 경쟁사들보다도 나은 머신러닝 모델 제작 성능을 제공한다고 주장했다. 마이크로소프트와 구글클라우드 등 클라우드 서비스 기업들간의 커스텀 반도체 칩 개발 경쟁도 한층 치열해질 전망이다.

AWS 트레이니엄은 1일(현지시간) 미국에서 진행된 연례 컨퍼런스 '리인벤트'에서 소개됐다. 앤디 재시 AWS 최고경영자(CEO)가 리인벤트 첫날 키노트를 진행하며 트레이니엄 칩을 활용할 수 있는 AWS의 새 인스턴스를 비롯해 컨테이너, 서버리스 기술을 지원하는 여러 클라우드 기반 신규 서비스를 대거 공개했다.
 

앤디 재시 아마존웹서비스 최고경영자. [사진=아마존웹서비스 리인벤트 키노트 영상]

 
내년 새 커스텀칩·인텔AI가속칩 인스턴스 출시

재시 CEO는 "ARM 칩 기반 '그래비톤' 컴퓨터를 개발해 웹티어 워크로드를 지원하는 A1 인스턴스를 만드는 것부터 시작했고, 최신 x86 프로세서 대비 가성비가 40% 높은 '그래비톤2'를 출시했다"며 "그래비톤 인스턴스에 투자를 지속하고 있고, 다음주 연산과 네트워킹 집약적 워크로드를 처리하는 인스턴스도 발표할 것"이라고 예고했다.

그는 이어 "인텔과의 파트너십으로 '하바나 가우디' 기반 비용 효율적인 모델 학습을 수행하는 EC2 인스턴스를 제공할 수 있게 됐고, 하바나 칩보다 더 비용 효율적이며 텐서플로·파이토치·MXNet을 지원하고 인퍼런시아와 동일한 '뉴런SDK'를 사용하는 커스텀 설계 머신러닝 학습용 칩 'AWS 트레이니엄'을 내년 하반기 제공하겠다"고 덧붙였다.

AWS 트레이니엄은 머신러닝플랫폼 '아마존 세이지메이커(SageMaker)' 안에서 아마존 EC2 인스턴스의 한 종류로 제공된다. 이 새 EC2 인스턴스는 내년 출시된다. AWS는 이 새 인스턴스가 일반 그래픽처리장치(GPU) 인스턴스 대비 30% 높은 쓰루풋과 45% 저렴한 추론 연산당 가격을 지원한다고 주장했다.

AWS는 인텔과 손잡고 작년 인텔에 인수된 이스라엘 인공지능(AI) 가속칩 스타트업 '하바나랩스'의 가우디(Gaudi) 프로세서를 탑재한 머신러닝 학습용 EC2 인스턴스를 내년 출시한다. 이 인스턴스는 머신러닝 학습 연산을 위한 동일 성능을 일반 그래픽처리장치(GPU) 대비 최대 40% 저렴하게 제공한다. 이 칩은 텐서플로와 파이토치 프레임워크도 지원한다.

이 특화 프로세서를 탑재한 새 인스턴스는 작년 리인벤트에서 출시된 AWS 인퍼런시아(Inferentia) 인스턴스를 보완한다. 인퍼런시아 역시 전용 프로세서를 탑재했다. 머신러닝 추론 연산용으로 제공되고 있다. 이번에 선보인 트레이니엄은 인퍼런시아를 쓰기 위한 것과 동일한 SDK로 동작한다.

AWS는 자사가 앞서 출시한 인퍼런시아가 머신러닝 인프라 비용의 최대 90%를 차지하는 머신러닝 추론 관련 비용을 해결했지만, 많은 개발 부서가 고정된 머신러닝 학습 관련 비용으로 모델과 애플리케이션을 개선하는 데 필요한 훈련 범위와 빈도에 제한을 두고 있다고 주장했다. 트레이니엄은 클라우드 기반 머신러닝 학습을 위한 최고 성능, 최저 비용을 지원하는 만큼, 인퍼런시아와 트레이니엄을 활용해 머신러닝 학습과 추론 인프라의 비용을 모두 절감할 수 있다고 강조했다.
 
온프레미스에서도 AWS처럼 컨테이너 관리

기존 AWS 클라우드의 컨테이너 인프라를 기업 데이터센터에도 구축할 수 있는 솔루션이 소개됐다.

AWS의 퍼블릭 클라우드 데이터센터에서 제공하던 '아마존 엘라스틱 컨테이너 서비스(ECS)'와 '아마존 엘라스틱 쿠버네티스 서비스(EKS)'가 기업들의 구축형 솔루션으로 제공된다. '아마존 ECS 애니웨어'와 '아마존 EKS 애니웨어'다.

아마존 ECS 애니웨어는 기업이 AWS의 완전관리형 컨테이너 오케스트레이션 서비스인 아마존 ECS를 온프레미스로 구축할 수 있도록 제공되는 솔루션이다. 도커 컨테이너 기반 애플리케이션을 쉽게 실행, 확장, 보호하는 기능을 AWS 클라우드 영역에 더해 기업 자체 데이터센터에서도 활용 가능하다.

아마존 EKS 애니웨어는 기업이 AWS의 완전관리형 쿠버네티스 클러스터 관리 서비스인 아마존 EKS를 온프레미스로 구축할 수 있도록 제공되는 솔루션이다. AWS 클라우드의 쿠버네티스 클러스터 운영환경을 기업 자체 데이터센터에서도 활용할 수 있게 해준다.

재시 CEO는 "아마존 ECS 애니웨어를 사용하면 AWS와 동일한 메커니즘으로 여러분의 데이터센터에서 ECS를 구동할 수 있다"며 "마찬가지로 EKS를 기업 데이터센터에서 AWS와 동일한 방식으로 쓸 수 있는 아마존 EKS 애니웨어를 내년 출시할 예정이며 이 환경으로의 이전을 미리 준비하려는 분들을 위해 EKS와 동일한 오픈소스 버전도 지원한다"고 말했다.
 
25만6000IOPS 지원 클라우드 SAN 볼륨 등장

이어 데이터센터에 구축된 SAN 스토리지 인프라를 AWS 클라우드로 가져올 수 있는 서비스가 공개됐다.

AWS는 '아마존 엘라스틱 블록 스토어(EBS)'의 성능을 끌어올린 '아마존 EBS io2 블록 익스프레스'와 '아마존 EBS Gp3', 두 가지 볼륨을 소개했다. 또 '아마존 S3 인텔리전트 티어링 자동 데이터 아카이빙'과 '아마존 S3 레플리케이션', 두 가지 신규 티어도 선보였다.

아마존 EBS io2 블록 익스프레스 볼륨은 클라우드용으로 구축된 SAN을 제공한다. 오라클, SAP HANA, 마이크로소프트 SQL 서버 및 SAS 애널리틱스와 같은 I/O 집약적이며 미션크리티컬한 데이터 처리 환경을 구현하기 위해 설계됐다. 25만6000IOPS, 초당 최대 4000MB 쓰루풋, 최대 64TB 용량을 지원한다. 높은 초기 구매 비용과 충분한 용량 보장을 위한 복잡한 예측, 어렵고 복잡한 관리 등 SAN 인프라 구축의 부담과 문제를 해결해 준다. 신청자에게 프리뷰 버전으로 제공된다.

아마존 EBS Gp3 볼륨은 차세대 범용 SSD 볼륨이다. 기존 Gp2 볼륨 대비 GB당 20% 저렴한 가격으로 최대 1만6000IOPS, 초당 최대 1000MB 쓰루풋을 지원하는 스토리지를 프로비저닝할 수 있다. 기본 성능은 3000IOPS, 초당 125MB 쓰루풋으로 상향됐다. IOPS 및 쓰루풋을 스토리지 용량과 별도로 프로비저닝할 수 있게 됐다. MySQL이나 카산드라 DB처럼 같은 용량에 더 높은 성능만 필요로 하는 요구를 충족한다.

아마존 S3 인텔리전트 티어링 자동 데이터 아카이빙은 기업이 잘 사용하지 않는 오브젝트를 '아카이브 액세스' 티어로 자동 이동시켜 오브젝트 스토리지 비용을 최대 95%까지 절감해 준다. 사용자가 아카이브 액세스 티어를 활성화하면 S3 인텔리전트 티어링은 90일동안 액세스하지 않은 오브젝트를 '아카이브 액세스 티어'로, 180일 후 '딥 아카이브 액세스 티어'로 자동 이동시킨다. 이제까지는 사용자가 아카이빙할 대상의 결정과 이동을 수작업으로 수행해야 했다.

아마존 S3 레플리케이션은 동일한 AWS 리전의 여러 S3 버킷에 데이터를 복제해 리전 간 콘텐츠를 배포한다. 이는 컴플라이언스 및 데이터 공유 필요 상황에 효과적으로 대응할 수 있게 해준다. 기본 스토리지용, 아카이빙용, 재해복구용 등 여러 AWS 리전별 S3 버킷에 데이터를 쉽게 복제할 수 있게 됐다. 두 AWS 리전의 데이터에 S3 지능형 티어 스토리지 클래스를 사용하고 'S3 글래셔 딥 아카이브'에 저비용으로 다른 복사본을 둘 수도 있다.

신형 서버리스 DB인 '아마존 오로라 서버리스 v2'가 소개됐다. 서버리스DB는 DB서버 라이선스 부담과 클러스터 관리 문제를 해결한 서비스다. 기존 오로라 서버리스는 수천곳에 개발, 테스트용 워크로드로 배포됐다. 즉각적 스케일업과 병렬 쿼리 등 기능을 추가한 v2가 이번에 출시돼 프로덕션 환경에 적용 가능해졌다.
 
세이지메이커 데이터프렙 자동화 툴 '랭글러' 추가

이어 머신러닝을 활용한 비즈니스 혁신을 촉진할 수 있는 도구가 소개됐다. 머신러닝 학습에 사용할 데이터의 전처리(prep) 작업을 자동화할 수 있는 기능 '아마존 세이지메이커 랭글러'다. 이는 작년 출시된 머신러닝용 통합개발환경(IDE) '세이지메이커 스튜디오'에 추가됐다.

재시 CEO는 세이지메이커 랭글러를 "머신러닝용 데이터 준비 도구"라고 소개했다. 알맞은 AWS 데이터스토어 또는 서드파티 스토어를 지정하고 이 도구를 사용하면, 내장된 300개 이상의 데이터 변환 기능이 작동해 해당 데이터에 어떤 변환 작업이 필요한지 알려 준다. 사용자는 세이지메이커 스튜디오의 데이터콘솔을 사용해 이 도구가 추출한 데이터의 특징(feature)을 결합하거나 조합할 수 있고, 이를 적용한 결과가 적절하다고 판단할 경우 모든 데이터셋에 같은 변환 처리를 할 수 있다.

머신러닝 모델을 한 번 만들고 나서 이와 관련된 데이터의 업데이트를 지원하고 재활용할 수 있도록 돕는 '세이지메이커 피처 스토어'도 지원된다. 역시 세이지메이커 스튜디오를 통해 제공되며 이 도구로 간편하게 데이터의 특징 정보에 접근하고, 이를 활용해 머신러닝 학습과 추론을 수행할 수 있다.

이어 사내 머신러닝 업무를 위한 지속통합·지속개발(CI·CD) 도구 '세이지메이커 파이프라인'도 등장했다. 이는 데이터 랭글러를 사용하고, 데이터 피처 스토어에 데이터를 옮겨 머신러닝 관련 여러 업무를 수행한 뒤 학습, 튜닝, 모델 호스팅 등의 단계까지 아우르는 작업을 CI·CD 워크플로 안에 구성할 수 있게 해주는 도구다. 세이지메이커 파이프라인은 사전 구성 템플릿을 다수 제공해 초보자가 쉽게 구축, 배포할 수 있게 해주며 의존성 관리 및 구성요소 추적과 감사 증적 보존 기능도 제공한다.

이밖에 작년 출시된 코드리뷰 자동화 서비스 '코드구루'와 같은 아이디어로 아마존과 AWS의 운영경험을 활용해 학습시킨 운영이슈 예측 서비스 '아마존 데브옵스 구루' 서비스가 공개됐다. 알람 설정 누락, 설정 오류, 리소스 한계 도달, 서비스 중단 위험 등 상황에 경고를 보내고 조치 방안도 안내해 준다.

사용자가 지정한 데이터스토어의 자료를 활용해 자연어로 질문을 입력하면 답을 알려 주는 비즈니스인텔리전스(BI) 서비스 '아마존 퀵사이트Q'도 소개됐다. 머신러닝 기술에 대해 전혀 모르는 사용자도 검색창에 '지난 몇주간 A 제품 매출이 얼마인지' 또는 '그 매출이 B 제품 매출과 얼마나 차이가 나는지'를 자연어 질문으로 입력하면 몇 초 안에 답을 알려 준다.
 
센서만 있으면 공정 이상 감지…제조 특화 5종 서비스

이날 AWS는 별도 자료로 제조업종의 생산공정에 특화된 머신러닝 서비스 5종도 소개했다. 아마존 모니트론(Monitron), 아마존 룩아웃 포 이큅먼트(Lookout for Equipment), AWS 파노라마 어플라이언스(Panorama Appliance), AWS 파노라마 SDK(Panorama SDK), 아마존 룩아웃 포 비전(Lookout for Vision)이다.

아마존 모니트론은 센서, 게이트웨이, 머신러닝서비스로 구성된 머신 모니터링 시스템이다. 산업장비의 유지보수 필요 시기를 예측해 준다. 비정상적 진동, 온도 변화로 기계가 정상 동작하지 않는 경우를 감지하고, 기계 검사 시기를 통보한다. 산업 및 제조 환경에서, 베어링, 모터, 펌프, 컨베이어 벨트와 같은 다양한 회전 장비에 사용될 수 있다.

아마존 룩아웃 포 이큅먼트는 머신러닝 모델 구축을 원하지 않고 이미 센서를 구축한 기업을 위한 서비스다. 센서 데이터를 AWS에 보내 모델을 구축해 주고 비정상적 장비 동작 감지를 위한 예측을 수행한다.

AWS 파노라마 어플라이언스는 기 구축된 작업장 내 카메라에 컴퓨터 비전을 추가할 수 있는 하드웨어 어플라이언스다. 이 장치는 자동으로 카메라 스트림을 식별해 기존 산업용 카메라와 함께 작동한다. AWS 머신러닝 서비스 및 IoT 서비스와 통합돼 맞춤형 머신러닝 모델을 구축하거나 더 정밀한 분석을 위해 영상을 수집한다. 외부 연결 없이도 로컬 현장에서 예측이 가능하도록 지원한다. AWS 및 타사의 사전 학습된 컴퓨터 비전 모델과도 함께 작동한다.

AWS 파노라마 SDK는 하드웨어 업체가 유의미한 컴퓨터 비전 모델을 에지에 실행할 수 있게 하는 새로운 카메라 구축을 지원한다. AWS 파노라마 SDK로 제작된 카메라는 빠르게 움직이는 컨베이어 벨트에서 손상된 부품을 감지하거나 지정된 작업 구역 밖에 있는 기계를 발견하는 등의 활용 사례를 위한 컴퓨터 비전 모델을 운영한다.

아마존 룩아웃 포 비전은 시간당 수천개 이미지를 처리해 이상 징후를 탐지하는 솔루션을 제공한다. 기업은 이를 활용해 기계 부품에 금이 가거나, 패널에 흠집이 나거나, 불규칙한 모양이나 제품 색상 오류 등의 이상 징후를 식별할 수 있다.