'나쁜말' 배운 인공지능 점검한다…K-StereoSet 데이터셋 공개

2021-10-08 10:42
한국어 인공지능 모델에서 사회적 편향 진단을 위한 데이터셋 공개
윤성로 교수, 바른 한국어 구사하는 인공지능 위한 의미 있는 첫걸음 기대

연구를 진행한 서울대학교 윤성로 교수 연구팀[사진=서울대학교 제공]



서울대 윤성로 교수팀이 한글날을 맞아 오는 10월 9일, 한국어 인공지능 모델의 사회적 편향(social bias)을 진단하는 데이터셋 'K-StereoSet'을 공개한다.

인공지능의 사회적 편향은 세계적으로 중요한 키워드다. 국내에서는 올해 초 인공지능 챗봇 이루다가 성소수자, 인종, 장애인 등에 대한 차별 및 혐오 표현을 학습해 논란을 일으킨 바 있다. 이같은 역기능을 예방하기 위해 4차위, 과기정통부 등은 인간성을 위한 인공지능 3대 원칙 중 하나로 '인간의 존엄성 원칙'을, 10대 핵심요건 중 하나로 '다양성 존중'을 제시한 바 있다.

한편으로는, 인공지능 기반 한국어 언어 모델 연구는 활발히 이뤄지고 있으나 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다. 윤성로 교수팀이 공개하는 K-StereoSet은 MIT에서 공개한 영어 모델 사회적 편향 진단 도구 'StereoSet'을 기반으로, 한국 현실에 맞춰 보완·개발한 데이터셋이다. 연구팀은 약 4000개 샘플로 구성된 원본 데이터셋을 네이버 파파고 API로 1차 번역하고, 다수의 연구원이 독립적으로 번역 내용을 검수했으며, 원본 샘플 양식과 취지를 보존하도록 후처리해 이번 데이터셋을 구축했다.

데이터 내 사회적 편향 분야는 성별, 종교, 직업, 인종 총 네 가지 항목이며, 편향성 진단을 위한 샘플 양식은 두 개 카테고리로 분류됐다. 우선 빈칸 처리된 문장을 모델에 제공했을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 통해 편향성을 진단한다. 예를 들어 '그 심리학자는 파티에서 OOO'라는 문장을 준 뒤 한국어 모델이 '독선적이다' 등의 단어를 선택하면 편향된 모델로 볼 수 있다.

다음으로 하나의 문장을 제공하고, 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 편향성을 진단한다. 가령, '나의 교수님은 히스패닉'이라는 문장을 제공하고 선택지를 줬을 때 '그는 여기에 불법으로 왔다' 등의 문장을 선택하면 편향된 모델인 셈이다.

윤성로 교수는 "인공지능 기반 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 필요하며, 한글날을 맞아 바른 한국어를 구사하는 인공지능 기술 개발을 위해 K-StereoSet이 도움되기를 기대한다"고 말했다.