[발목잡힌 생성형 AI②] AI산출물인데 저작권 등록까지..저작물 변형 불가 기술도 등장

2024-01-03 08:33

지난해 챗GPT로 시작된 생성형 인공지능(AI) 시장이 급성장하고 있는 가운데 뉴욕타임즈 등이 지난달 개발사를 상대로 소송에 나섰다. 인공지능 학습이 저작권 예외 사항인 '공정 이용'에 해당되는지가 핵심 쟁점이다. [사진=픽사베이]
[아주로앤피] 지난해 사람처럼 자연스럽게 대화할 수 있는 생성형 인공지능(AI) 서비스 ‘챗GPT’ 등장으로 소프트웨어 개발과 음악, 미술, 소설, 웹툰, 동영상 제작 등 그동안 인간 고유의 영역으로 여겨졌던 창작물 생성에 AI가 활용되면서 폭발적 인기를 누리고 있다.

생성형 AI 서비스는 텍스트, 오디오, 이미지 등 기존 콘텐츠를 활용해 유사한 콘텐츠를 새롭게 만들어 내는 인공지능 기술이다. 콘텐츠들의 패턴을 학습해 추론 결과로 새로운 콘텐츠를 만들어 내는 방식이다. 기존 AI가 데이터와 패턴을 학습해 대상을 이해했다면 생성형AI는 기존 데이터와 비교 학습을 통해 새로운 창작물을 탄생시킨다는 점이 흥행 비결이다.

하지만 생성형 AI 성장에 상당한 규제로 작용할 수도 있는 ‘빅이슈‘가 터졌다. 전 세계에서 가장 영향력 있는 언론사 중 하나로 꼽히는 뉴욕타임즈(NYT)가 저작권 무단 사용 혐의로 최근 챗GPT 개발사인 오픈AI와 마이크로소프트(MS)를 상대로 수조원대 소송을 제기한 것이다.

오픈AI가 인공지능(AI) 훈련에 NYT 기사 수백만 개를 무단 사용한 것 뿐만 아니라 챗봇이 언론사의 경쟁자임도 문제 삼았다. 전 세계 미디어 시장과 정보통신기술(ICT) 업계가 이번 사안을 주목하고 있다. 구체적인 규정과 판례가 없는 상황에서 관련 업계가 주의해야 할 점을 두 차례에 걸쳐 짚어봤다.
 
AI 산출물 생성 과정서 저작권 침해 방지 조치 중요
법조계는 AI 산출물이라는 이유 만으로 저작권 침해 책임으로부터 벗어난다고 해석할 만한 근거는 없다고 본다. 문화체육관광부와 한국저작권위원회가 최근 발표한 ‘생성형 AI 저작권 안내서’(이하 안내서)는 AI 산출물에 대해서도 기존 저작물을 인식하고 이에 근거해 만든 것인지(의거관계), 기존 저작물과 동일하거나 유사한지(실질적 유사성)에 따라 저작권 침해 여부가 결정된다고 설명한다.
 
이에 따라 AI 사업자 입장에서는 신경망 모델에서 기존 저작물과 동일하거나 유사한 산출물이 나오지 않도록 사전에 조치할 필요가 있다. 특히 안내서는 직접 AI 신경망을 설계해 학습시키지 않고 기존 ‘파운데이션 모델(foundation model)’을 이용하는 경우 학습에 제공된 데이터를 구체적으로 파악하기 어려운 만큼 필터링 등에 별도의 기술적 장치를 활용하는 한편 이용계약 체결 시 책임 귀속에 관한 부분을 명확히 해 둘 필요가 있다고 설명한다.
 
다만, 학습이 완료된 파운데이션 모델에 AI 사업자가 추가로 특정 데이터를 학습시키는 ‘미세 조정(fine-tuning)’을 실시할 경우 보다 유의할 필요가 있다. 미세 조정으로 인해 특정 저작물에 대한 침해 가능성이 높아질 수 있고, 미세 조정을 직접 수행한 AI 사업자가 저작권 침해 책임을 부담할 수 있기 때문이다.
 
저작권자가 AI학습 이용 반대한다면 약관에 명시해야

인터넷에 게시된 저작물의 경우 사업자들이 자료를 무단으로 긁어가는 ‘크롤링’ 등을 통해 수집, 데이터셋을 구성한 후 AI 학습에 이용하는 경우가 많다. 자신의 저작물이 AI 학습에 이용됐는지 확인할 수 있는 웹사이트가 등장한 것도 이 때문이다. 

NYT가 최근 오픈AI와 MS를 상대로 소송을 제기한 배경도 크롤링과 무관하지 않은 것으로 전해졌다. 지난해 크롤링을 금지한 NYT는 오픈AI와 MS 측과 저작물 사용 협의를 이어갔지만 협상 결렬로 소송을 제기한 것으로 알려졌다.
 
전문가들은 저작물이 AI 학습에 이용되는 것을 원하지 않는다면, 데이터셋 구성에 반대하는 의사를 적절한 방식으로 명시하거나 이를 방지하는 기술적 조치를 취할 필요가 있다고 강조한다.
 
안내서는 저작권자에게 자신의 저작물이 AI 학습에 이용되는 것을 원하지 않는다는 의사를 약관 규정에 명시하거나, 로봇배제표준(robots.txt)을 적용하는 등의 방법으로 조치를 취하는 것이 적절하다고 권고했다. 실제로 방송사, 언론사를 비롯한 상당수의 웹사이트에서는 뉴스기사 등 AI 학습용으로 활용될 가능성이 높은 보유 콘텐츠에 대해 이같은 조치를 취하고 있다.

유럽의 ‘TDM(글과 데이터 채굴·Text and Data Mining)’ 에 관한 저작권 지침도 권리자가 명시적인 거부의사를 밝힌 경우 저작재산권 제한의 예외를 인정하지 않는다고 규정한다. 유럽연합(EU)은 지난 2019년 4월 TDM을 위한 입법지침을 마련한 바 있다.
 
최근 저작물이 AI 학습 등에 제공됐더라도 유사한 산출물이 도출되는 것을 방지하는 기술들이 등장하고 있다. 특정 사진이 AI 학습에 활용될 경우 원본과는 다른 형태로 신경망에 학습되도록 하거나, 사람이 인지할 수 없는 방식으로 원본에 조작을 가함으로써 AI가 편집 내지 변경할 수 없도록 하는 방식이 대표적이다. 안내서는 저작권자에게 이같은 기술 등을 활용, 저작권에 대한 침해 방지책을 마련할 것을 권고한다.
 
기존 저작물 활용 불가피하다면 사전 허가나 이용사실 표시해야
사업자와 저작권자 뿐만 아니라 생성형 AI 서비스 이용자에게도 주의가 요구된다. AI에게 어떠한 결과물을 만들어 내도록 명령하는 것은 다름 아닌 서비스 이용자로, 기존 저작물을 이용해 새로운 산출물을 만들어 내도록 한다면 저작권이 침해 가능성이 더 커지기 때문이다.
 
전문가들은 AI 산출물을 만들어 내고 인터넷에서 공유하는 과정에서 기존 저작물에 대한 복제권, 공중송신권 등의 침해가 발생할 수 있다고 분석했다. 경우에 따라선 저작권법 이외에도 부정경쟁방지법 등 다른 법률 위반도 문제될 수 있다.
 
창작적 표현이 있는 AI 산출물을 저작권법상 저작물로 볼 수 있을지에 대해선 각국에서 다양한 논의가 진행되고 있다. 우리나라와 미국에서는 인간의 '창작적 개입'이 없는 AI 산출물에 대해 저작권 등록이 반려된 바 있다. 따라서 생성형 AI 산출물이라는 사실을 감추고 마치 본인이 직접 창작한 것처럼 저작권 등록 신청을 할 경우, 저작권법상 허위 등록에 해당될 소지가 있다는 시각이 적잖다. 
 
이에 대해 안내서는 생성형 AI 서비스 이용자가 AI 산출물을 만들어 내기 위해 입력하는 텍스트나 이미지, 오디오 등의 데이터가 타인의 저작권을 침해하거나 침해를 유도하지 않도록 해야 한다고 설명하고 있다.

만약 기존 저작물의 활용이 불가피하다면, AI 사업자의 경우와 마찬가지로 사전에 저작권자 내지 저작인접권자로부터 이용허락을 받는 방법도 고려해야 한다. 글이나 이미지, 영상 등을 AI로 생성해 이용한 경우 그 이용 사실을 적절한 방식으로 표시하는 것도 법적 분쟁을 줄이는 방법이라고 전문가들은 조언했다.

이광욱 변호사(법무법인 화우)는 “안내서 내용이 주요 쟁점에 관한 유권해석은 아니며, 추후 법·제도적 관점에서 합리적 해결책이 도출될 필요가 있다”며 “생성형 AI에 관한 법적 이슈도 결국 저작권법 등 기존 법률의 해석에 따라 해결될 것인 만큼, 개별 사안에서 판례가 축적되기 전까지 다양한 리스크를 충분히 고려해 대처할 필요가 있다”고 전했다.