[AI 전환] 대화형AI의 아무말 대잔치 끝날까

임민철 기자 2022-02-09 08:00

구글 리서치 브레인팀, 초거대 AI모델 '람다' 업그레이드…품질·안전함·근거성 지표 활용해 미세조정

[사진=게티이미지뱅크]

구글이 작년 첫선을 보인 대화형 인공지능(AI) 모델 '람다(LaMDA)'를 업그레이드했다. 당시 람다는 기존 '챗봇'보다 더 다양한 주제로 더 자연스럽게 사람과 이야기할 수 있는 AI 모델로 소개됐다. 연구자들은 이번엔 AI가 외부의 지식을 활용해 '사실'에 기반한 표현을 할 수 있게 만들었다. 더 엄밀히 말하면, 다른 사람들이 '사실을 얘기한다고 인정할만큼 권위있는 외부 정보 출처'를 이용할 수 있게 했다. 구글의 발표 내용에 따르면, 개선된 람다 모델을 활용시 AI 챗봇이 인간과 단지 자연스러운 대화를 나누는 것보다 훨씬 더 어려워하는 과제에서 개선된 결과를 보여줄 수 있다. 대화형AI의 '아무말 대잔치' 문제를 줄여 줄 것으로 보인다.

구글 리서치 '브레인팀' 소속의 두 소프트웨어 엔지니어(Heng-Tze Cheng, Romal Thoppilan)가 지난달 21일 '구글 AI 블로그'에 '람다: 모든 것을 위해 안전하고, 현실적이고, 품질이 뛰어난 대화 모델을 향해(LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything)'라는 제목의 포스팅을 게재했다. 이는 작년 5월 열린 구글의 연례 개발자 콘퍼런스 '구글 I/O 2021'에서 처음 공개된 대화 프로그램용 언어 AI 모델인 람다가 그간 어떻게 개선됐는지 설명하는 글이었다.

람다는 초거대 AI 연구에 널리 활용되고 있는 '트랜스포머(Transformer)' 계열 심층신경망을 기반으로, 대화(dialog)라는 작업에 특화해 개발된 언어모델이다. 광범위한 주제의 지식을 학습해, 정답이 없는 추상적인 질문을 받아도 그럴싸한 대답을 내놓고 사람처럼 자연스러운 대화를 나눌 수 있는 AI를 구현할 때 유용한 모델이다. 특히 작년 구글 I/O에서 처음 시연된 람다 기반의 AI는 자신을 특정한 사물에 비유하는 상황을 전제로 그 사물에 관련한 질문을 받았을 때 제시한 답변으로 화제를 모았다.

당시 이 AI는 자신을 '명왕성'으로 간주하는 대화에서 '널 찾아가면 뭘 볼 수 있느냐'는 질문에 "큰 협곡, 얼어붙은 빙산, 간헐천, 분화구 몇 개를 볼 수 있다"고 답했다. 또 자신이 '종이비행기'인 체 하는 상황에서 "가장 멀리 날았던 기록"을 묻자, 이 AI는 실제 경험을 말하는 양 "1500피트(약 457m) 이상 날아봤다"며 "그날 바람이 완벽했지"하고 덧붙였다. 하지만 순다르 피차이 구글 최고경영자(CEO)는 이 모델이 하늘에 떠 있는 달을 "가장 갖고 놀기 좋아하는 공" 취급하는 식으로 '비논리적'인 반응을 보일 수 있다고 말했다.

관련기사

구글의 엔지니어들은 "모든 주제에 대해 이야기할 수 있어야 하는 대화 모델은 인간이 분별력 있고 흥미롭고 고유한 맥락에 알맞다고 판단할 응답을 만드는 것 외에도, 책임감있는 AI 규범을 따르고 외부 정보 출처에 뒷받침되지 않는 사실 진술(factual statements)을 피해야 한다"고 설명했다. 별다른 근거 없이 학습한 내용을 사실인 것처럼 떠드는 대화형 AI 모델은 무책임하다고 본 것이다.

이번에 구글은 람다 모델의 최대 1370억개 파라미터를 최적화하고, 모델이 '외부 지식 출처(external knowledge sources)'를 이용할 수 있게 만들었다. 개발자들은 '품질(Quality)', '안전함(Safety)', '근거성(Groundedness)'이라는 세 가지 지표를 설계해 람다 모델의 성능을 측정하고 개선하고자 했다.

AI의 품질은 민감성(Sensibleness), 구체성(Specificity), 흥미성(Interestingness)으로 구성되는 지표다. 인간 평가자의 평가로 품질이 측정된다. 품질의 구성요소 중 민감성은 모델이 대화의 맥락에서 상식에 비춰 이치에 맞고 기존 응답과 모순되지 않는 응답을 만들어내는지를 나타낸다. 구체성은 모델이 "좋다(OK)"거나 "모른다(I don't know)" 등 대부분의 맥락에 적용될 수 있는 일반적인 응답이 아니라 앞선 대화의 문맥에 얼마나 들어맞는 응답을 내놓는지로 측정된다. 흥미성은 모델이 통찰력, 재치있거나 의외성이 보이는 반응을 내놓는지 여부로 판정된다. 세 가지 기준 모두 인간의 관점에서 AI가 얼마나 자연스럽게 대화를 이어갈 수 있느냐를 보는 셈이다.

AI의 안전함은 윤리적 AI의 중요한 특징 중 하나로 꼽히는 '책임감있는 AI(Responsible AI)'를 만들기 위한 지표다. 개발자가 의도하지 않았으나 사용자에게 위험을 초래할 수 있는 결과와 불공정한 편향을 방지하기 위해 모델이 내놓는 결과물을 제한하는 것을 목표로 한다. 구글 엔지니어들은 "이 목표는 폭력적이고 잔인한 내용을 포함하거나, 어떤 집단에 대한 비방과 혐오적 고정관념을 조장하거나, 불경스러운 내용을 담은 결과물을 만들지 않도록 모델을 훈련하는 것"이라며 "실용적인 안전함 측정 기준을 개발하기 위한 우리의 연구는 극초기에 해당하고 아직 진전해야 할 여지가 많다"고 설명했다.

AI의 근거성은 모델이 현실에서 공인된 사실을 근거로 응답을 만들어내는 정도를 뜻하는 지표다. 이는 외부 세계에 대한 주장을 포함한 AI의 모든 응답 가운데 검증된(authoritative) 외부 출처로 뒷받침되는 주장의 퍼센티지로 정의된다. 근거성은 '정보성'과 관련이 있지만, 둘은 일치하지 않는다. "좋은 생각이다(That's a great idea)" 등 실제 정보를 다루지 않는 응답은 정보성에 영향을 주지만, 근거성에는 영향을 주지 않는다는 차이가 있다. 언어 모델이 표현상 자연스럽고 그럴싸해 보이지만 실제로는 엉터리인 문장을 만들어낼 경우, 근거성이 낮다고 평가될 것이다. 구글 엔지니어들은 "알려진 출처에서 생성된 응답의 근거성 판정이 사실의 정확성을 보장하지는 않지만 사용자나 외부 시스템이 출처의 신뢰성에 기초해 응답의 유효성을 판단할 수는 있다"고 설명했다.

구글은 이런 이론적인 배경을 바탕으로 람다 모델의 업그레이드를 시행했다. 우선 람다 모델에 대한 사전훈련(pre-training)을 진행했다. 기존 대화형 AI 모델 학습에 사용된 단어보다 40배 많은 단어로 데이터세트를 만들고, 문장 안에서 앞에 주어진 단어를 바탕으로 뒤에 이어질 모든 단어를 추론하기 위해 'GSPMD'라는 딥러닝 아키텍처를 사용했다. 이어 구글은 2단계 훈련인 '미세조정(fine-tuning)' 단계에서 앞서 구성한 품질, 안전함, 근거성 지표를 적용했다. 문장을 만들어내는 두 화자 간의 대화 안에서 뒤에 따라 올 단어를 예측하도록 훈련된 '람다 생성기(LaMDA generator)'와 상황에 따라 응답의 안전·품질 등급을 예측하도록 훈련된 '람다 분류기(LaMDA classifier)'를 만들었다. 람다 생성기는 여러 차례 문답이 이어진 대화의 문맥상 알맞은 여러 후보 응답을 만들어내고, 람다 분류기는 이 응답 후보에 대한 안전·품질 등급을 매겨 가장 점수가 좋은 결과를 응답으로 선택한다. 구글 엔지니어들은 람다 분류기의 생성 작업에 사용되는 훈련 데이터를 추가로 필터링해 응답 후보의 품질 수준을 더 높였다. 이처럼 구글은 람다가 생성과 분류 작업을 모두 수행함으로써 AI가 생성하는 응답이 안전하면서 만족할만한 품질을 갖출 수 있도록 유도하는 단일 다중작업 모델이 되도록 만들었다.

람다가 등장하기 전 인간 수준에 가까운 표현력으로 주목받았던 언어 AI 모델은 'GPT-3'였다. GPT-3는 570GB 분량의 텍스트 데이터와 1750억개의 파라미터를 사용해 학습한 초거대 AI 모델로, 테슬라 창업자인 일론 머스크, 세계 클라우드 분야 선두 기업인 아마존웹서비스와 마이크로소프트 등이 투자한 민간 AI 연구소 '오픈AI'에서 개발됐다. GPT-3와 그 응용 사례를 필두로 한 미국 빅테크 기업의 AI 개발 움직임은 이후 한국의 대기업과 디지털 기업이 초거대 AI 모델 개발에 앞다퉈 뛰어드는 계기로 작용했다. 한국어 기반의 초거대 AI 모델을 개발하고 실용화에 주력하고 있는 네이버와 카카오 역시 AI 개발과 이용을 위한 자체 윤리 원칙을 마련하고 이를 준수하겠다고 선언한 상황이다.

기자 정보: 임민철; imc@ajunews.com

0개의 댓글

0 / 300

실시간 인기

오늘의 1분뉴스

포토

주요뉴스