[테크인트렌드] 공개된 개인정보, AI 학습의 허용…핵심 키는 '정당한 이익'

2024-07-23 06:00
개인정보보호위원회 가이드라인 발표
개발자·서비스 제공자 영업적 이익…그로 인한 사회적 이익 포함
의료진단보조·신용평가·LLM 등 정당한 이익 위해 활용 가능
기업 스스로 적법성 판단 권고…"규제 불확실성" 상승 우려도
영국·프랑스·미국 관련 논의 속도…상호 정보 운용성 확대

[사진=게티이미지뱅크]

# 로앤비가 국립대 교수 사진과 출생 연도, 학력·경력 등 개인정보를 수집해 유료로 제3자에게 제공한 사안과 관련해 대법원은 공개된 개인정보의 영리 목적 수집·제공을 허용했다. 판결에 따르면 이미 공개된 개인정보를 정보주체 동의가 있었다고 객관적으로 인정되는 범위 내에서 수집·이용·제공 등을 처리할 땐 정보주체의 별도 동의는 불필요하다고 보았다. 

# A씨가 골프웨어를 입은 사진을 사회관계망서비스(SNS)에 올렸는데 동일 상표의 골프웨어를 판매하는 사람이 해당 사진을 동의 없이 영업용 SNS에 게시했고 법원에선 이를 위법한 행위로 판결했다. SNS 이용약관에서 사용자 콘텐츠를 임의로 사용할 수 있는 것으로 정하고 있더라도 '영리 목적'으로 사용하는 것까지 허락했다고 해석할 수 없다는 것이다. 더욱이 A씨의 자기 정보 통제권과 초상이 영리적으로 이용당하지 않을 권리를 침해하는 위법 행위라고 보았다.

이렇듯 SNS 등 인터넷상에 공개된 정보라 할지라도 상황에 따라 프라이버시 침해로 이어질 수 있다. 공개 데이터는 인터넷상에서 누구나 합법적으로 접근할 수 있는 데이터다. 특히 최근 챗GPT 등 생성 인공지능(AI) 개발을 위한 학습 데이터의 핵심 원료로 쓰이면서 공개된 정보 활용을 위한 구체적 기준 설정 필요성이 높아졌다. 공개 데이터에는 주소·고유식별번호·신용카드번호 등 여러 개인정보가 포함될 수 있어 국민 프라이버시 침해 우려가 크기 때문이다. 

하지만 현행 개인정보 보호법에는 이러한 공개된 개인정보 처리에 적용될 수 있는 명확한 기준이 없다. AI 학습에 공개 데이터가 대규모로 사용되는 상황에서 현행 보호법상 정보주체 개별 동의나 계약 체결 등 조항을 적용하는 것은 사실상 어렵다. 또한 AI 학습이 전통적인 개인정보 처리 방식과 달라 보호법상 안전성 확보 조치 등 규정을 그대로 적용하는 것에 한계가 있다.
 
"공개된 개인정보 '정당한 이익' 있으면 사용 가능"
[사진=그래픽팀]

데이터 활용과 관련해 법적 불확실성을 해소하기 위해 개인정보보호위원회는 최근 'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서'를 마련했다. 안내서는 '정당한 이익' 조항에 의해 공개된 개인정보를 AI 학습·서비스 개발에 활용할 수 있다는 점을 분명히 했다. 

정당한 이익 조항이 적용되려면 △AI 개발 목적의 정당성 △공개된 개인정보 처리의 필요성 △구체적 이익형량 등 세 가지 요건을 충족해야 한다. 

우선 개인정보처리자의 정당한 이익이 있어야 한다. 이는 AI 개발자와 서비스 제공자의 영업상 이익은 물론 그로부터 발생하는 사회적 이익 등 다양한 이익이 포함될 수 있다. 일례로 인종, 종교, 성별, 지역, 소득 등에 따른 차별적 예측값이 생성되지 않도록 AI 생성물의 공정성을 높이기 위해 사용되면 사회적 이익에 해당된다. 대표적으로 의료진단보조와 신용평가, 초거대언어모델(LLM) 등이 해당된다. 

다만 특정인을 식별하는 목적으로 쓰이거나 범죄 등에 악용될 때에는 '정당한 이익'이 성립되지 않는다. 일례로 안면인식 데이터베이스(DB)와 결합해 개인에 대한 프로파일링과 감시 목적이 있거나 사이버 공격·개인 사칭 사기 등 불법적 목적으로 AI 시스템을 개발하는 경우가 해당된다. 

공개된 개인정보 처리의 필요성과 상당성·합리성이 인정돼야 한다. 보통 LLM 개발에 있어서 공개 데이터 활용의 필요성이 인정된다고 보고 있다. LLM의 정확도와 신뢰도 향상을 위해선 대규모 학습데이터가 필요하기 때문이다. 업계에 따르면 LLM이 최소한 언어의 유창성을 확보하려면 약 5만~25만개 어휘가 필요한데, 이를 위해선 수조 개 이상의 토큰을 학습데이터로 투입해야 한다. 

다만 LLM 개발에 공개된 개인정보 처리의 필요성을 일괄적으로 인정할 수는 없고 구체적 목적이나 맥락 등을 고려해 개별적 판단이 필요하다고 개인정보위 측은 설명했다. 

공개 정보를 수집할 때 정당한 이익과 상당한 관련이 있고, 합리적 범위를 초과하는지 등을 스스로 평가해야 한다. AI 개발 목적과 용도에 맞는 학습데이터 수집 기준을 사전에 정해야 한다. AI 개발과 상당한 관련이 없는 정보는 학습에서 배제하는 것이 원칙이다. 예를 들어 의료진단보조 AI를 개발할 때 개인 소득·재산 등 관련 없는 정보는 학습시키면 안 된다. 

또한 개인정보처리자의 정당한 이익이 정보주체 권리에 명백히 우선해야 한다. 명백성 요건을 충족하려면 △정보주체 권리 침해 위험을 예방‧경감하기 위한 안전성을 확보했는지 △정보주체 권리보장방안을 마련해 개인정보처리자 이익이 우선하도록 조치했는지 등을 고려한다. 일례로 금융사기 방지나 누군가의 생명이나 재산 등 이익에 필요한 경우나 범죄 등 위협으로부터 보호가 필요한 경우 등이 해당된다. 
 
"법적 의무 없는 가이드라인···AI 기업 규제 아니다"

안내서에서 제시하는 개별 조치를 시행하지 않았다고 보호법을 위반한 것은 아니다. 개인정보위는 공개된 개인정보 수집‧활용의 법적 기준을 명확화하고 AI 개발과 서비스 단계에서 어떤 안전 조치를 취하는 것이 적정한지에 대해 기업이 참고할 수 있는 최소한의 기준을 제시한 가이드라인이라고 분명히 했다. 기업 스스로 AI 개발·서비스의 목적과 맥락, 공개된 개인정보 처리와 관련한 정보주체 권익 침해 수준 등을 종합적으로 고려해 적법성을 판단해야 하는 것이다. 

자율적으로 안전 조치를 도입하라는 것이 오히려 기업 입장에서는 규제의 불확실성이 커질 수 있다는 우려도 있다. 이에 대해 개인정보위 측은 "현재 AI의 성능을 발전시키면서도 공정성·투명성·안전성 등을 높일 수 있도록 다양한 조치가 논의되고 있으나 아직까지 '만능 해결책'인 안전 조치는 알려진 바 없다"고 했다. 그러면서 "안전성을 높일 개별 조치는 편향·차별, 성능 저하 등 부정적 효과를 야기할 수 있어 특정 안전 조치 이행을 일률적으로 요구하기보다는 기업 자율로 '최적 조합'을 선택해 이행하도록 한 것"이라고 설명했다. 

개인정보위는 최적 조합 판단의 불확실성을 고려해 이번 안내서에 실제 기업들 사례를 담았다고 말했다. 향후에도 AI 기업이 참고할 수 있도록 업계에서 연구·시행하고 있는 모범사례를 지속적으로 발굴해 안내서에 반영할 계획이다. 

공개 데이터 중 민감성이 높은 개인정보 처리는 각별한 주의가 필요하다. 대규모 웹 스크래핑 과정에서 민감성이 높은 정보 항목이 수집될 수 있는데 이런 경우 정보주체 권리 제한·침해 가능성이 일반 개인정보보다 더 높아질 수 있다. 이에 비례한 안전성 확보 조치와 정보주체 권리 보장 수준이 강화될 필요가 있다고 개인정보위 측은 설명했다. 

기업이 회원가입 정보 등을 통해 이미 수집한 정보나 AI 모델에 입력한 질문(프롬프트)·답변을 AI 학습 목적에 이용하는 것은 사실상 제한된다. 이용자 데이터는 이용자와 AI 기업 간 일대일의 투명한 고지·동의에 기반해 처리가 가능하고, 개인정보 보호법제가 옵트인(사전동의) 기반으로 돼 있기 때문이다. 이런 경우 자발적 동의나 계약 체결·이행 등 다른 법적 근거에 따라야 한다.
 
전 세계 공개정보 활용↑···"국제적 상호 운용성 높여야"

미국·영국·프랑스·싱가포르 등 각국에서는 정당한 이익이 인정되면 공개 정보 활용을 허용하고 있는 분위기다.

영국은 웹 스크래핑을 통해 수집한 데이터를 생성형 AI 학습에 사용하는 것에 '정당한 이익'이 인정될 수 있음을 공식적으로 밝혔다. 프랑스도 지난해 10월 AI 학습 목적으로 개인정보 처리 시 정당한 이익이 인정받는 기준을 제시했다. 싱가포르 개인정보보호법(PDPA)은 공개된 정보에 대해 정보주체 동의 없이 수집·이용·공개가 가능하도록 규정하고 있다.

미국에서도 공개 정보 활용을 위한 법 개정 움직임이 나타나고 있다. 미국 최초 개인정보 보호 일반법인 캘리포니아 소비자프라이버시법(CCPA)은 생체인식정보 등을 제외한 공개된 정보를 개인정보 범위에서 제외했다. 이를 개정한 프라이버시권리법(CPRA)에서는 '공적 관심사로서 합법적으로 획득한 진실된 정보'까지 사용하지 못하게 했다. 미국은 연방 차원에서도 공개된 정보를 개인정보 범위에서 제외하는 내용이 담긴 개인정보보호법(APRA) 제정을 추진 중이다.

개인정보위는 이번 가이드라인이 해외 정책 동향에 따라 국제적으로 상호 운용성 있는 기준을 마련하는 데 중점을 두었다고 했다. 개인정보위 측은 "영국·프랑스 등 유럽연합(EU) 주요국은 정당한 이익이 공개된 개인정보의 처리 근거가 될 수 있다는 입장"이라면서 "정당한 이익 조항의 합리적 해석 기준을 마련하는 것은 EU 일반 개인정보보호법(GDPR)이나 최근 AI 안전성 규범 논의 등 글로벌 스탠더드와 상호 운용성을 높이게 되는 측면이 있다"고 말했다. 

양청삼 개인정보위 개인정보정책국장은 "지난 2월 발표된 비정형 데이터 가명처리 기준, 5월 발표된 합성 데이터 생성 참조모델에 이어 세 번째로 발표하는 이번 'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서'는 빠르게 변화하고 있는 AI·데이터 처리 환경에 적용할 수 있는 개인정보 보호 원칙과 기준을 구체화한 것"이라고 설명했다. 이어 "LLM 등 AI 개발에 '핵심 원료'인 공개된 개인정보가 적법하고 안전하게 활용될 수 있도록 일정한 기준을 제시함으로써 기업의 불확실성을 낮추고 국민 신뢰를 높이기 위한 취지에서 준비했다"고 덧붙였다.

한편 개인정보위는 AI 기술 개발에 투명성을 확보하기 위해 데이터 사용 기준을 구체화한 6대 가이드라인을 마련하고 있다. 6대 가이드라인에는 △공개된 개인정보 처리 △비정형 데이터 가명처리 △생체인식정보 규율 체계 △합성 데이터 활용 △드론 등 이동형 영상기기 촬영 정보 활용 △AI 투명성 확보 등에 대한 구체적인 법 적용 내용이 담길 예정이다.