#미국의 국토안보부(DHS) 내 과학기술국(S&T), 사이버보안부서(CSD)는 사이버 보안 연구에 필요한 데이터(1페타 이상)를 공유하며 운영하고 있다. 데이터 검색을 비롯해 데이터&분석 도구 매칭, 데이터 공유, 소셜 서비스 등을 제공 중이다.
#일본은 2008년부터 JPCERT·CC, IPA, AIST, NICT 등과 일본 컴퓨터보안학회가 공동으로 악성코드 데이터를 공유해 분석결과 등을 경쟁하는 대회를 개최해 오고 있다. 악성코드 유포부터 감염, 확산(네트워크 트래픽 등) 및 분석결과 등의 데이터로 구성된 대회를 매년 펼치는 중이다.
29일 한국인터넷진흥원(KISA)에 따르면 AI 기술의 핵심은 지능 고도화를 위한 알고리즘 개발과 방대한 양의 데이터를 확보하는 것이다. 이렇게 확보된 빅테이터를 스스로 학습해 미래의 변화를 예측하고 일치시키는 기술을 '딥러닝'이라고 불린다.
지난해 구글, 마이크로소프트(MS) 등 글로벌 기업들은 데이터 수집과 데이터센터 구축 등에 들인 비용만 36조원에 달한다. 구글은 하루 평균 약 35억건의 데이터를 처리하고, 10엑사바이트(100억 기가바이트)의 데이터를 저장하고 있다. MS는 머신러닝과 인공지능(AI)의 인텔리전스를 활용해 월 평균 약 9억 3000만개의 사이버 위협을 분석, 감시하고 연간 10억 달러(약 1조 1050억원) 이상을 투자하고 있다.
이처럼 글로벌 기업들이 AI 데이터 확보에 열을 올리면서 '데이터셋'에 대한 중요성도 높아지고 있다. 데이터셋이란 정보보호 기술 개발 및 검증을 위한 필수요소로 악성코드(PC 악성코드, 모바일 악성코드), 네트워크 트래픽 등 정보보호 R&D 기술개발과 검증 등에 필요한 데이터 집합체를 말한다.
미국은 학계·산업계·비영리단체·정부기관과 7개(호주, 캐나다, 이스라엘, 일본, 네덜란드, 싱가포르, 영국) 국가가 참여한 데이터셋을 구축·운영해 왔다. 사이버보안연구에 활용됐던 악성코드, 해킹·이상 행위 정보, 공격트래픽 등의 데이터셋을 연구기관, 학교, 기업, 비영리기관과 공유하고 있다.
우리나라는 우수 AI 분야 아이디어와 데이터 분석 능력을 겨루는 '삼성 AI 챌린지' AI 기술을 활용해 사회문제를 해결하기 위한 'AI R&D 챌린지'를 지난해부터 개최하고 있다. KISA는 정보보호산업진흥포털 내 '국내 정보보호 R&D 데이터셋' 공유 웹 페이지를 구축해 필요한 정보를 제공 중이다.
특히 KISA는 지난해부터 '정보보호 R&D 데이터 챌린지'를 통해 사이버보안에 적극 대응해 나가는 움직임이다. 이 대회는 악성코드, 정상·악성 앱, 카 해킹(Car Hacking) 등 데이터셋을 활용한 4개 트랙을 운영, 각종 보안문제 해결 능력을 기르는 것을 목적으로 한다. 이와 함께 세인트시큐리티와 고려대학교 등의 협조를 얻어 공유 데이터 목록을 확대해 나가겠다는 계획이다.
오주형 KISA 보안기술확산팀장은 "현재 정보보호산업진흥포털 내 데이터셋 공유 웹 페이지는 접근성이 낮고 공유 목록 확대에 한계가 존재한다"면서 "국내 기업의 다양한 우수 정보보호 기술 연구 개발을 지원하기 위해 사이버보안 연구 분야 데이터셋 공유를 늘려 나갈 것"이라고 말했다.