[AWS 리인벤트 2022] "더 싸고 좋은 클라우드 만들었다"…AWS의 가성비 혁신기
2022-11-29 20:12
피터 데산티스 AWS 유틸리티컴퓨팅 수석부사장 1일차 기조연설…"성능은 하드웨어와 소프트웨어의 장단 맞추기"
글로벌 클라우드 선두 기업 아마존웹서비스(AWS)가 기존 한계를 넘어선 새 컴퓨팅, 데이터베이스(DB), 스토리지, 네트워킹, 데이터 분석, 머신러닝 기술로 서비스의 '가성비'를 끌어올렸다. 자사 클라우드 서비스 성능을 하드웨어와 소프트웨어 간 파트너십 내지 일종의 '장단 맞추기'로 묘사하면서 보안성을 유지하거나 개선하면서 비용을 더욱 낮춘 성과와 이를 통한 신상품을 선보였다.
피터 데산티스 AWS 유틸리티컴퓨팅 수석부사장은 28일(현지시간) 저녁 미국 라스베이거스에서 진행된 'AWS 리인벤트 2022' 1일차 기조연설(Monday Night Live)을 통해 AWS 클라우드 서비스의 새로운 서비스와 기존 대비 성능이 향상된 업그레이드 서비스를 소개했다. 기존 대비 더 나은 성능을 더 저렴하게 제공할 수 있도록 개발된 최신 하드웨어, 소프트웨어 기술의 이점을 강조했다.
AWS 클라우드는 정보기술(IT) 인프라를 쓰기 위한 대규모 사전 투자 없이 쓴 만큼만 비용을 지불하고 고객 수십만 명에게 IT 인프라 자원을 제공하는 규모의 경제 효과로 종량제 요금을 낮출 수 있다. 클라우드를 쓰는 기업은 자체 전산실과 데이터센터에 서버를 설치하고 전원과 공조 설비를 유지하는 데 쓸 시간과 비용을 절감하고 고객에게 집중해 비즈니스 차별화 여력을 확보할 수 있다.
데산티스 수석부사장은 "이 여섯 가지 클라우드의 장점은 매뉴얼에 나오지 않는 장기적인 투자를 통해 실현된다"고 말했다. 이어 AWS 클라우드의 가상서버 상품군 'EC2'를 맞춤형 시스템으로 제공하기 위해 설계한 '니트로(Nitro) v5' 시스템과 이를 탑재한 신형 EC2 인스턴스 'C7gn'을 소개했다.
니트로 v5는 이전 세대보다 2배 많은 트랜지스터를 구동해 50배 빠른 메모리 액세스 속도, 향상된 대역폭, 60% 빨라진 초당 패킷 처리 속도, 30% 감소한 전력소비량과 40% 증가한 와트 당 성능을 제공한다. 이를 탑재해 구동되는 아마존 EC2 C7gn 인스턴스는 AWS의 ARM 기반 프로세서 '그래비톤3' 칩셋을 기반으로 네트워크 대역폭 200Gbps를 지원해 50% 향상된 패킷 처리 성능을 낸다.
데산티스 수석부사장은 그래비톤3E을 탑재한 '아마존 EC2 HPC7g' 인스턴스를 발표하면서 "이 인스턴스는 최고의 에너지 효율에 더 나은 가격과 성능을 결합한 것으로 고효율 실시간 HPC 애플리케이션에 활용할 수 있다"고 소개하고 "리스케일(HPC 플랫폼 전문기업) 등이 이걸 활용해 더 빠르고 효율적인 워크로드를 보급할 수 있을 것이라고 기대한다"고 강조했다.
AWS는 하드웨어 성능 한계를 넘는 개선 효과를 얻기 위해 소프트웨어를 함께 이용한다. 그 일환으로 인터넷에서 데이터를 전달하는 표준 통신 규격인 '전송제어프로토콜(TCP)' 대신 AWS 클라우드 맞춤형 규격으로 고안한 '스케일러블 릴라이어블 데이터그램(SRD, Scalable Reliable Datagram)'과 SRD 통신을 위한 EC2 네트워크 인터페이스 '엘라스틱 패브릭 어댑터(EFA)' 개발했다.
데산티스 수석부사장은 "TCP는 단일 경로로 모든 패킷을 보내기 때문에 다중 경로 네트워크를 충분히 활용하지 못한다"며 "SRD는 문제 발생 시 네트워크를 우회하고 패킷 누락에 따른 재전송 시간이 마이크로초(㎲) 수준으로 밀리초(㎳) 수준인 TCP보다 훨씬 빠르며 '니트로' 환경에서 작동해 기존 AWS EC2 인스턴스 애플리케이션에 영향을 주지 않고 작동한다"고 설명했다.
내년 초 모든 '아마존 엘라스틱 블록 스토어(EBS)'를 위한 io2 볼륨이 SRD를 활용해 구동한다. 아마존 EBS는 EC2 인스턴스에 구축한 애플리케이션을 지원하기 위해 제공되는 클라우드 기반 블록 스토리지 솔루션이다. SRD를 활용하는 ios2 볼륨을 사용하는 아마존 EBS 인스턴스는 네트워크 지연시간을 10분의 1로 단축하고 4배 향상된 처리 성능을 지원할 수 있다.
EC2 인스턴스를 위한 네트워크 인터페이스 기술 '엘라스틱 네트워크 어댑터(ENA)'도 SRD를 통해 기존 5배 수준에 달하는 처리 성능을 실현했다. SRD 기반 ENA의 단일 연결 기준 초당 처리 성능은 25GB/s다. AWS는 이 기술을 'ENA 익스프레스'로 명명하고 기존 TCP와 운영체제에 추가 소프트웨어 없이 이 기술을 적용해 애플리케이션 지연시간 단축 효과를 얻을 수 있다고 강조했다.
AWS는 덩치가 큰 AI 모델을 학습하는 전문가를 위해 모든 머신러닝 모델의 학습 속도를 20% 가량 높여 주는 기법을 고안했다. 모델 매개변수 값으로 16비트와 32비트 표현을 혼용하는 부동소수점 실수 계산에 확률적 반올림(stochastic rounding)을 적용해 순수 32비트 계산보다 시간과 메모리를 덜 쓰면서도 16비트 계산보다 빠르고 정확한 모델 훈련을 가능케 했다.
AWS는 확률적 반올림 기능과 함께 여러 서버에 걸쳐 머신러닝 학습 클러스터를 구성한 환경에서 전체 프로세서와 서버 간 학습 데이터 교환 작업량을 감축하는 메모리 공유 최적화 알고리즘을 도입했고, 머신러닝 전용 반도체 칩 '트레이니엄' 기반 EC2 인스턴스(Trn1)의 최신 버전인 'Trn1n'을 제공한다고 밝혔다.
서버리스 컴퓨팅 서비스인 AWS 람다 성능이 개선된 배경도 공개됐다. AWS에는 클라우드 이용자의 람다 기반 함수 실행 호출이 전달됐을 때 코드를 처리할 런타임을 두기 위해 캐시 자원이 미리 구성돼 있다. 이 자원이 부족하면 실행할 함수를 위한 캐시 자원이 추가돼야 하는데, 이를 제공할 소형 인스턴스(t2)의 기동 시간 단축을 위해 '파이어크래커'라는 가상머신(VM)이 투입됐다.
파이어크래커는 람다 함수 실행 런타임용 캐시가 이미 구성된 기본 VM을 빠르게 재시작할 수 있는 소형 VM으로 지난 2018년 도입됐다. AWS는 여기서 만족하지 않았다. 이 기본 VM을 띄울 때 자바VM 시작, 클래스 코드 압축 해제, 로딩 단계를 거쳐 마지막 클래스 초기화 단계까지 진행해야 비로소 캐시를 쓸 수 있는데, 가장 긴 마지막 단계 소요 시간을 줄일 방법까지 찾아냈다.
AWS는 이 방식으로 기본 VM 전체 기동 소요시간 90%를 단축한 '람다 스냅스타트' 기술을 이용자들에게 추가 비용 없이 제공한다고 밝혔다. 이 기술은 이미 클래스 초기화 단계를 마친 VM이 스냅숏 형태로 준비돼 있다가 실제 구동 시점에 각각 다른 암호화 키를 받아 보안상 안전하게 기동하고, 뒤따르는 함수 실행 호출을 예측해 더 빠르게 기본 VM을 재시작할 수 있도록 지원한다.
데산티스 수석부사장은 기조연설을 마무리하면서 "성능 개선 작업은 끝 없는 과정"이라며 "(AWS의 성능 개선 작업은) 보안성을 훼손하지 않으면서도 가장 저렴하게 혁신을 제공한다"고 강조했다. 그는 "우리는 니트로 반도체 칩부터 서버리스 컴퓨팅까지 모든 기술의 한계를 끌어올리고 있다"며 "AWS가 항상 뒤에서 여러분의 성공을 돕고 있다"고 덧붙였다.