의료‧교통‧챗봇까지...AI 학습용 데이터 가명처리 기준 나왔다

2024-02-04 14:09
개인정보위, 비정형데이터 가명처리 가이드라인 제정
위험성 체크리스트 제시...가명처리 기술 외부전문가 검토도

고학수 개인정보보호위원회 위원장 [사진=연합뉴스]
정부가 인공지능(AI) 학습 등에 주로 활용되는 비정형데이터에 관한 가명처리 기준을 마련했다. 생성형 AI 확산으로 학습용 데이터 개인정보 관련 분쟁이 급증할 것으로 예상되는 가운데 정부가 분쟁을 사전에 막을 수 있는 가이드라인을 제시한 것이다.

개인정보보호위원회는 AI 기술 개발의 핵심 재료인 비정형데이터에 관한 가명처리 기준을 새로 만들었다고 4일 밝혔다. 

비정형데이터란 별도의 데이터베이스(DB)화 과정을 거치지 않은 이미지, 영상, 음성, 텍스트 등 데이터를 말한다. 시장조사업체 IDC에 따르면 지난해 기준 전 세계 데이터의 최대 90%가 비정형데이터다. 기존 가명정보 처리 가이드라인은 정형데이터에 관한 처리기준만 있어 기업·연구기관 등 현장에서 적합한 비정형데이터 가명처리 방법·수준을 알지 못했는데, 이번 가이드라인으로 혼란이 크게 줄어들 것으로 기대된다.
 
개정한 가이드라인에는 비정형데이터를 가명처리하고 활용하는 과정에서 특수하게 나타날 수 있는 개인정보 위험을 사전에 확인하고 통제하기 위한 원칙이 담겼다. 또 의료‧교통‧챗봇 등 각 분야 가명처리 사례와 시나리오를 제공함으로써 현장에서 손쉽게 활용할 수 있도록 했다. 

비정형데이터는 개인식별 가능 정보에 대한 판단이 상황에 따라 달라질 수 있다. 때문에 데이터 처리목적과 환경, 민감도 등을 종합적으로 고려해 개인식별 위험을 판단하고 합리적인 처리방법과 수준을 정하도록 했다. 

주민번호, 전화번호, 주소 등 개인식별위험이 있는 정보가 비교적 명확히 구분되는 정형데이터와 달리 비정형데이터는 눈‧코‧입을 알아볼 수 없는 거리‧각도에서 찍힌 CCTV 영상‧사진도 머리스타일‧흉터‧문신 등 특이한 신체적 특징 때문에 식별위험이 있을 수 있다. 

흉부 CT 촬영사진도 그 자체로는 식별위험이 높지 않지만 3차원 재건기술 이용하거나 특이한 흉터 등은 위험요소가 될 수 있다. 이에 개인정보위는 기업과 연구기관이 개인식별 위험성 검토 체크리스트를 통해 식별위험을 사전에 진단하고, 위험을 낮추기 위한 관리적‧환경적 통제방안을 마련하도록 했다. 

또 비정형데이터 속 개인식별 위험 요인을 완벽하게 탐지해 처리할 수 있는 기술이 아직 없는 만큼 기업과 연구기관이 기술적 한계를 보완하기 위한 조치를 이행토록 했다. 앞으로 기업과 연구기관은 비정형데이터로 AI를 학습할 때는 가명처리 기술의 적절성·신뢰성을 확인할 수 있는 근거를 작성·보관하고, 가명처리 결과에 대해 자체적인 추가검수를 수행해야 한다. 처리기술의 적절성·신뢰성은 외부전문가가 참여한 위원회의 적정성 검토를 받아야 한다.

비정형데이터는 AI와 모자이크 제거, 음성복원 등 데이터 복원 기술을 통해 다른 정보와 연계하지 않아도 개인을 재식별할 수 있는 위험이 크다. 때문에 가명처리한 비정형데이터 활용 시 관련 시스템·소프트웨어(SW)의 접근·사용 제한 등 통제방안을 반드시 마련해야 한다. 기업은 새로운 기술·서비스를 개발할 때 개인정보보호법과 가이드라인을 제대로 준수하는지 개인정보위에 사전적정성 검토를 신청할 수 있다. 

고학수 개인정보위 위원장은 "AI 등 신기술 영역은 현장의 불확실성을 해소할 수 있는 세밀한 데이터 처리정책이 중요하다"며 "이번 가이드라인을 시작으로 생성형 AI와 관련한 '공개된 개인정보 처리 가이드라인' 등 산업 현장의 어려움을 해소할 수 있는 기준을 올해 중 순차적으로 발표할 계획"이라고 말했다.