아마존웹서비스(AWS)가 기업 데이터센터에 구축된 시스템과 클라우드에 저장된 데이터를 빠르게 찾아 IT·데이터 전문가와 실무 담당자 권한 별 접근과 활용을 촉진하는 데이터 관리 서비스 '아마존 데이터존(Amazon DataZone)'을 공개했다. 아마존 데이터존은 사용자가 데이터 접근을 관리하고 데이터 검색, 사용, 협업으로 시사점을 얻게 해 조직의 데이터 중심 의사결정을 돕는다.
AWS는 29일(현지시간) 미국 라스베이거스 AWS 리인벤트 2022 행사에서 아마존 데이터존을 발표했다. 이를 사용하는 조직의 데이터 관리 담당자와 데이터 생산자가 데이터 접근을 관리하고 제어해 엔지니어, 데이터 과학자, 제품 관리자, 분석가, 비즈니스 사용자 등 구성원 역할 별 권한에 알맞게 데이터에 접근해 검색, 사용, 협업하고 인사이트를 도출할 수 있게 지원한다.
조직 내 모든 데이터, 부서, 사용 사례를 고려한 거버넌스 정책을 마련하는 것은 어려운 일이다. 정보를 선별하고 활용을 제안하는 데이터 카탈로그 시스템을 구축하면 유지와 관리에 많은 시간이 소모되고 데이터 생산자가 출처와 설명 등을 수동 지적해야 하는 부담을 안게 된다. 데이터 소비자가 소유자에게 접근 승인을 요청할 수 없고 생산자의 수동 레이블 지정 부담도 크다.
사용자가 데이터 카탈로그 시스템에서 필요한 정보를 찾아도 데이터를 소유한 쪽에 접근 허용을 요청하고 분석 서비스에 데이터를 올려 협업하기는 어려울 수 있다. 의사결정자가 필요한 정보를 제때 얻지 못하거나 불완전하거나 오래된 데이터를 기반으로 잘못된 결정을 내릴 수 있다.
아마존 데이터존을 도입한 조직의 데이터 생산자는 데이터존 웹 포털로 데이터 분류 체계를 정의하고 거버넌스 정책을 구성한다. 아마존 S3, 아마존 레드시프트 등 AWS 서비스 파트너 솔루션, 온프레미스 시스템에 연결하는 등 작업으로 자체 비즈니스 데이터 카탈로그를 설정한다.
각 조직에 아마존 데이터존으로 설정된 자체 비즈니스 데이터 카탈로그는 머신러닝 기반으로 각 데이터 세트의 정보 출처와 데이터 유형 등 메타데이터를 수집, 제안한다. 메타데이터를 통해 분류 체계, 선호도를 훈련하고 점진적으로 개선해 카탈로그를 유지 관리하는 번거로움을 덜어 준다. 카탈로그가 설정되면 웹 포털로 데이터 자산을 찾아 데이터 세트에 접근을 요청할 수 있다.
직원이 데이터 분석을 시작할 준비가 되면 사용자는 아마존 데이터존에 다양한 데이터 세트를 가져오고 동료와 함께 접근하고 분석을 위해 협업하는 '아마존 데이터존 데이터 프로젝트'를 생성한다. 이는 아마존 레드시프트, 아마존 아테나, 아마존 퀵사이트 등 AWS 분석 서비스와 통합돼 별도 자격증명 관리 없이 데이터 프로젝트 환경에서 사용자 접근과 데이터 사용을 허용한다.
아마존 데이터존은 데이터브릭스, 스노플레이크, 태블로 등 파트너 솔루션과 사용자 지정 솔루션에 통합할 수 있는 애플리케이션 프로그래밍 인터페이스(API)를 제공한다. 이 API를 활용하면 고객이 모든 데이터 자산을 게시, 검색, 사용할 수 있다. 프랑스 에너지 기업 엔지(ENGIE), 미국 미디어 기업 폭스 코퍼레이션, 브라질 금융사 이타우(Itaú) 등이 아마존 데이터존 고객사다.