[AWS 리인벤트 2022] AWS "데이터 가치 창출 열쇠는 미래지향적 기반, 연결 조직, 머신러닝 민주화"
2022-12-01 09:48
스와미 시바수브라마니안 AWS 데이터 및 머신러닝 부사장 AWS 리인벤트 2022 기조연설
아마존웹서비스(AWS)가 데이터를 활용해 비즈니스를 키우려는 기업을 위한 클라우드 활용 방안을 구체화했다. 인공지능(AI)·머신러닝(ML) 기술 전문가 임원이 나서서 비즈니스 의사 결정과 혁신 성과를 내기 위한 기업 데이터 전략 3대 핵심 요소를 제시하고, 데이터 엔지니어와 분석가에게 유용한 데이터 분석·활용 지원 기술과 서비스를 선보였다.
스와미 시바수브라마니안(Swami Sivasubramanian) AWS 데이터 및 머신러닝 부사장은 11월 30일(현지시간) 미국 라스베이거스 AWS 리인벤트 2022 기조연설에서 "데이터는 기업 안에서 자연스럽게 흐르지 않고 단절, 불일치를 일으켜 분석과 새로운 아이디어 도출이 어려운 상태"라며 "데이터 가치를 극대화하기 위한 절차가 있는데, (기업 다수가) 아직 갈 길이 멀다"고 말했다.
AWS 데이터 전략은 첫째, 기업이 데이터를 제대로 활용하기 위해 우선 핵심 데이터 서비스가 지원하는 미래 지향적 기반을 마련해야 한다는 것이다. 데이터와 사용자 유형에 따라 다양한 도구를 갖춰 모든 워크로드에 적절하게 대응하고 계속 늘어나는 데이터를 알맞은 규모와 성능으로 처리해 IT·데이터 담당자가 더 가치있는 일에 집중하게 해야 한다. 높은 안정성과 보안성도 필수다.
'아마존 아테나'는 표준 정형데이터 질의 언어(SQL)와 호환하는 AWS 클라우드 기반 서버리스 대화형 질의 서비스로 뛰어난 편의성 덕분에 분석가, 데이터 엔지니어, 데이터 과학자, 개발자 사이에서 인기가 높다. 이번에 정식 출시된 '아마존 아테나 포 아파치 스파크'로 시계열 데이터 분석에 널리 쓰이는 오픈소스 기술 '아파치 스파크'의 데이터도 몇 초 이내에 분석할 수 있게 됐다.
클라우드DW '아마존 레드시프트'에서 쉽게 아파치 스파크 데이터를 분석하는 서비스 '아마존 레드시프트 인티그레이션 포 아파치 스파크'는 다른 환경보다 최대 3배 빠른 성능으로 AWS 클라우드에서 아파치 스파크를 실행한다. '아마존 다이나모DB'는 다른 클라우드DW보다 최대 5배 뛰어난 '가성비'로 매일 엑사바이트 규모 데이터를 처리하고 있다.
시바수브라마니안 부사장은 "넷플릭스는 실시간 이벤트 응답 기반으로 하루 TB 규모 데이터를 수집해 양질의 고객 경험을 제공하고 필립스는 아마존 세이지메이커로 48PB 데이터를 사용하고 디지털 헬스 플랫폼에서 위험군 환자 식별력을 높였다"며 "고성능 기술을 제공받은 조직은 고객에게 더 나은 경험을 제공할 수 있다"고 강조했다.
ML 모델 제작을 위한 통합개발환경(IDE)을 제공하는 아마존 세이지메이커는 지리공간 데이터를 사용해 모델을 구축, 훈련, 배포하는 방법을 더 쉽게 만들었다. 아마존 레드시프트는 핵심적인 분석 워크로드를 지원하는 고가용성과 신뢰성을 제공하는 다중 가용영역(AZ)을 지원한다. ML 기술로 이상 행위를 탐지해 보안 위협에 대비하는 '아마존 가드듀티 RDS 프로텍션'도 제공된다.
두 번째 데이터 전략 핵심 요소는 각 부서의 개인과 팀이 데이터를 다루는 경로를 통합해 전사적으로 데이터를 결합하고 연결하는 조직을 구성하는 것이다. 이 결합 조직은 장기적인 성장을 위해 양질의 데이터와 그 품질을 관리할 도구, 데이터 사용에 대해 조직 맞춤형 정책으로 운영하는 거버넌스 시스템, 데이터를 안전하게 공유하고 필요 시 조치를 취하게 할 저장소를 갖춰야 한다.
'AWS 글루 데이터 퀄리티'는 데이터 품질을 높이기 위한 새 도구다. 데이터 품질 규칙을 자동 생성하고 기업의 데이터레이크로 흘러드는 데이터 품질을 자동으로 측정, 감시, 관리하고 수작업 부담을 덜어 준다. '레드시프트 데이터 공유용 중앙화 접근제어'는 AWS 레이크포메이션을 사용하는 레드시프트 데이터에 대한 접근 제어를 중앙 관리하는 새 서비스다.
'아마존 세이지메이커 ML 거버넌스'는 ML 개발 환경에서 모델 훈련에 쓰이는 데이터 사용을 통제하고 구성원 간 협력하는 체계를 제공한다. 이 서비스에 사용자 권한을 몇 분 만에 정의해 권한 공유 문제를 해소하는 '역할 관리자', 여러 ML 모델이 만들어진 배경과 특징 등 메타데이터 관리하는 '모델 카드', 다양한 모델의 성능 가시성을 제공하는 '모델 대시보드' 기능이 모여 있다.
시바수브라마니안 부사장은 "거버넌스는 역사적으로 데이터가 사일로(단절된 영역)로 가게 만드는 수단으로 간주됐지만, 올바른 거버넌스는 조직 안에서 적절한 사람이 데이터에 접근해 더 빠르게 움직이고 혁신하도록 도움을 준다"며 "데이터 양이 급증하면 고객은 종단간 전체 데이터를 관리를 원하는데 이 때 ML과 데이터 과학자, 엔지니어 등 많은 사용자가 협업해야 한다"고 했다.
올바른 데이터 거버넌스를 실현하는 데 전날(29일) 발표된 '아마존 데이터존'이 한 축을 맡는다. 데이터존은 조직 전체 데이터를 분석, 검색, 공유, 관리하도록 지원하는 서비스로 데이터 보안과 개인정보 보호 요구사항을 충족하면서 AWS와 타사 데이터 서비스의 데이터 분석을 지원한다.
AWS는 아마존 S3, 레드시프트, 키네시스, 오픈시프트, 스플렁크, 파이어호스 등 자체 저장소와 외부 데이터 출처를 통합하는 기술에 투자하고 있다. ML 모델 훈련에 필요한 데이터를 쉽게 가져올 수 있도록 아마존 세이지메이커의 '데이터 랭글러'를 만들었고 아마존 앱플로(AppFlow)로 서드파티 클라우드 소프트웨어와 DW 간 데이터를 쉽게 옮기는 커넥터를 제공하고 있다.
오는 2026년까지 200만개 인간 유전자 분석에 도전하고 있는 제약사 아스트라제네카는 이런 AWS 데이터 통합 기술을 적극적으로 활용하고 있다. AWS 스텝 펑션스, AWS 람다, AWS 배치, 아마존 S3 등을 사용해 게놈 분석을 하면서 25PB 규모 데이터를 쌓았다. 환자 데이터, ML, AI, 원격 데이터 수집, 다중 오믹스, 종양 스캔 기술을 활용해 초기 암 진단과 예측 방법을 연구 중이다.
마지막 세 번째 데이터 전략 핵심은 ML 도구와 교육을 보급해 '데이터를 민주화(보편화)'하는 것이다. 직원이 통찰을 얻고 혁신 폭을 확대하는 일은 교육과 훈련을 통해 가능하다. ML 분야에 부족한 전문가 역할을 채울 인재도 필요한데 이를 위해 기술직군 인재에 전문성을 높이는 교육 프로그램을 제공하고 비(非) 기술직군 인재가 데이터로 더 많은 업무를 수행하도록 지원해야 한다.
AWS는 미국에서 연 5만4000명의 컴퓨터과학 전공 대학생이 졸업하는데 오는 2029년까지 AI 분야에 만들어질 1000만개 일자리를 채우기에는 불충분하다고 판단했다. 이에 커뮤니티칼리지에 다니는 지역사회 저소득층, 소외계층 학생에게 장학금을 지급하며 학습 동기를 부여하고, 이들에게 데이터 관리, AI, ML 분야 지식을 전수할 교육자를 양성하는 데 투자하고 있다.
시바수브라마니안 부사장은 "데이터를 모든 직원이 이해하고 통찰을 얻어야 데이터 기반 의사결정을 혁신할 수 있다"면서 "모든 직원이 데이터에 높은 전문성을 가질 필요는 없지만 로코드·노코드 도구를 활용해 기술적인 지식이 없어도 데이터를 활용할 수 있도록 지원을 받아야 한다"고 설명했다.
그는 기술적 지식이 없는 사용자가 몇 분 만에 데이터 분석과 대시보드를 만드는 ML 기반 BI 솔루션 '아마존 퀵사이트'를 소개했다. AWS 고객사인 글로벌 호텔 체인 베스트웨스턴이 2만3000명의 호텔 관리자와 직원에게 데이터를 공유하면서 이를 활용한 사례, 워너브라더스게임즈가 데이터로 플레이어의 경험을 이해하고 캐릭터 제작 등 게임 콘텐츠를 개선한 사례도 제시했다.