[문송천의 디지털 산책] 생성 AI '환각 현상' 막기 위한 직장 내 준비 작업의 첫걸음
2024-02-06 06:00
챗GPT라는 생성AI 사용자가 작년 이맘때 1억명에서 지금은 1억8000만명으로 증가했다고 한다. 보기에 따라 다른 해석이 나올 수는 있겠으나 1년 사이에 이 정도 증가세면 세간의 관심에 비해서는 생성AI에 대한 반응이 그리 큰 것은 아니라고 평가할 수 있겠다. 역시 1년 전 일이지만 국내에선 윤석열 대통령이 챗GPT로) 신년사를 써보니 훌륭하더라고 말해 화제가 된 적이 있다. 그래서 정말 대통령 신년사를 작성해 달라고 해봤다는 것이다. 그랬더니 불과 10초 만에 기계가 만든 신년사가 나왔는데 국정철학을 가미한다면 제법 쓸 만한 초안이 될 것 같았다는 평가가 나왔다. 기계에 물어봤더니 그럴듯한 답변이 온전한 문장 형태로 제시됐다는 뜻인데, 여기서 주목할 점은 그 답변은 기계가 임의로 생각하는 과정을 거쳐 나온 게 아니라 빅데이터 학습 결과로 나온 것이라는 사실이다. 생성AI가 영상이나 이미지 인식 영역에서는 이미 신의 경지에 들어가 있는 상태다. 그렇다면 거기에 그치지 않고 인간과 유사한 생각과 문장 구사까지도 어렵지 않게 처리하는 것을 보면 도대체 기계에 무엇을 학습시켰기에 가능해진 것일까. 그것은 전적으로 학습 대상에 달려 있는 것이다.
사실 생성AI 첫 출현 시 사람들에게 거부감이 그리 크게 일지 않았던 데에는 그렇게 되도록 철저히 사전 준비한 배경이 있었다. 2023년 1월 18일자 타임지 독점 취재 보도에 의하면 오픈AI라는 회사가 챗GPT의 성공적 출범을 위해 그 기술을 세상에 공개하기 전 무려 1년여에 걸쳐 데이터 중에서 악성 데이터를 걸러내는 사전 작업을 대규모로 전개했다는 사실이 밝혀졌다. 그 여과 작업은 주로 빅데이터에서 데이터 등급을 분류 및 레이블링하는 것으로서 만일 수작업으로 할 경우 족히 10년 이상 걸릴 만한 분량의 빅데이터 집군에 대해 이뤄졌다고 한다. 동원된 인력은 영어가 가능한 케냐·우간다·인도 지역 인력으로 시간당 평균 2달러 이하의 저임금 처우를 받는 조건으로 후진국 현지에서 작업이 수행됐다는 것이다. 3교대로 하루 9시간씩 일했다고 하니까 고된 작업 치고는 1만5000원 정도의 일당을 받고 일한 것이다. 1가족 하루 1달러 생활권인 아프리카에서는 괜찮은 일당이라고 생각할 수도 있을지 모르지만 이를 두고 혹사당했다는 아프리카 현지 보도도 있었다(아프로테크 매거진 2023년 1월 26일자 보도). 이 프로젝트가 5만여 명의 생계가 달린 작업이었다니 동원 인력은 대략 2만~3만명 수준으로 추산된다. 그럼에도 불구하고 미국 빅테크 기업들이 이 프로젝트에 지불한 비용 전체 규모는 수억 원대에 불과했다.
어떤 조직이든 기업 업무에 AI를 적용하려면 자체적으로 가지고 있는 텍스트 자료를 반드시 AI에 쓸모 있을 형태로 다 뜯어고쳐야 한다. 그런 변환 과정을 제대로 거치지 않은 준비 미비 상태에서 AI 적용 후 발생한 AI 환각 현상에 대해서는 변명의 여지가 없는 것이다. 이른바 AI 환각 현상이란 이런 준비가 부족할 때 겪는 일이다. 일각에서는 AI 사용 준비에 오픈AI가 한 것처럼 데이터 레이블링 절차만 거치면 되는 것으로 이해하고 있으나 그건 오해다. 지금 국내 여러 곳이 눈에 띄기도 한다. 이미지 분석이라면 그 정도로 되겠지만 텍스트 분석에서는 훨씬 정교하게 준비해야 한다. 텍스트가 한글일 경우 특히 더 그렇다. 한글 문서를 영어로 기계 직역한다고 해도 소용이 없다. 기계는 ‘콩글리시’를 이해하지 못한다. AI는 기계다. 기계는 어떤 문장이든 글자 하나 틀리지 않게 정확히 묘사해주지 않으면 환각 현상을 자동으로 일으킨다. 텍스트 쪽에서는 AI는 마치 영어 구조에 특화돼 있다고 할 정도로 한글 구조와는 상극이다. 이에 대해 충분히 이해하려면 한글과 영문의 차이를 잘 알아야 한다. 독자 이해를 돕기 위해 아래 두 가지 예를 통해 간단히 살펴보겠다. 한 가지 오해를 불식시키기 위해 먼저 밝힐 것은 여기서 언급하는 한글 문서는 교과서처럼 국어 문법을 다 지킨 경우가 아니라 직장 내 통용되는 현장 문서를 가리킨다. 직장 내 한글의 장점이자 단점은 표현의 융통성 혹은 포괄성에 있다. 반면 그만큼 표현의 적확성이 떨어지는 경우가 많다.
첫째, 수식어의 경우다. 수식어를 쓸 때 수식의 대상인 명사가 뒤에 나타나고 수식어 자체는 명사 앞에 나오는 것이 한글 표현이다. 그런데 수식이 길어지면 수식어가 하나에 그치지 않고 두서너 개씩 여러 개가 있을 수 있다. 수식어 다음에 나오는 명사가 단 하나인 경우에는 명사 앞의 수식이 그 명사에 국한되지만 만일 명사가 하나 이상 나오는 경우는 명사들 앞의 어느 수식어가 어느 명사를 수식하는지 판단하기 힘들다. 반면 영어의 장점이자 단점은 융통성이 떨어지고 포괄적이지는 못하지만 문장 내 어느 부분이 어느 다른 부분을 수식하는 것인지가 매우 명확하다. 영어에서는 수식어가 길 경우 수식어는 반드시 명사 앞이 아니라 명사 바로 뒤에 나타나게 돼 있다. 그게 영어의 문법이다. 그래서 어느 형용사가 어느 명사를 수식하는 데 쓰이는 것인지 분명하다. 언어의 표현 능력은 물론 동등하지만 표현 적확도에서는 한글과 영어 간에 차이가 존재한다는 사실을 보여준다. 둘째는 동사 구사에 관한 것이다. 직장 내 문서에서는 '···처리하고 송부한다'는 식으로 처리라는 동사와 송부라는 또 다른 동사가 연달아 나타나는 경우가 많다. 이럴 경우에 ‘처리하고’라는 부분 앞에 나오는 내용을 보면 누가 무엇을 어떻게 처리하는지에 대해서는 정확히 묘사되어 있겠지만 ‘송부한다’에 대해서는 처리한 다음 누가 무엇을 어디로 어떻게 송부하는지에 대해서는 묘사가 생략되어 기계로서는 알 방법이 없게 된다. 이런 경우에는 기계는 앞에 나타난 동사인 처리의 주어를 송부의 주어로 삼고 처리의 목적어를 송부의 목적어로 잡는 수밖에는 도리가 없다. 따라서 묘사가 생략되는 바람에 기계가 오해할 여지가 발생하는 것이다. 환각 결과가 발생할 수 있다는 말이다. 영어는 문법상 동사가 두 개 이상 연이어 등장하는 걸 절대 허용하지 않는다.
문송천 필자 이력
▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수