'나쁜말' 배운 인공지능 점검한다…K-StereoSet 데이터셋 공개
2021-10-08 10:42
한국어 인공지능 모델에서 사회적 편향 진단을 위한 데이터셋 공개
윤성로 교수, 바른 한국어 구사하는 인공지능 위한 의미 있는 첫걸음 기대
윤성로 교수, 바른 한국어 구사하는 인공지능 위한 의미 있는 첫걸음 기대
서울대 윤성로 교수팀이 한글날을 맞아 오는 10월 9일, 한국어 인공지능 모델의 사회적 편향(social bias)을 진단하는 데이터셋 'K-StereoSet'을 공개한다.
인공지능의 사회적 편향은 세계적으로 중요한 키워드다. 국내에서는 올해 초 인공지능 챗봇 이루다가 성소수자, 인종, 장애인 등에 대한 차별 및 혐오 표현을 학습해 논란을 일으킨 바 있다. 이같은 역기능을 예방하기 위해 4차위, 과기정통부 등은 인간성을 위한 인공지능 3대 원칙 중 하나로 '인간의 존엄성 원칙'을, 10대 핵심요건 중 하나로 '다양성 존중'을 제시한 바 있다.
한편으로는, 인공지능 기반 한국어 언어 모델 연구는 활발히 이뤄지고 있으나 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다. 윤성로 교수팀이 공개하는 K-StereoSet은 MIT에서 공개한 영어 모델 사회적 편향 진단 도구 'StereoSet'을 기반으로, 한국 현실에 맞춰 보완·개발한 데이터셋이다. 연구팀은 약 4000개 샘플로 구성된 원본 데이터셋을 네이버 파파고 API로 1차 번역하고, 다수의 연구원이 독립적으로 번역 내용을 검수했으며, 원본 샘플 양식과 취지를 보존하도록 후처리해 이번 데이터셋을 구축했다.
데이터 내 사회적 편향 분야는 성별, 종교, 직업, 인종 총 네 가지 항목이며, 편향성 진단을 위한 샘플 양식은 두 개 카테고리로 분류됐다. 우선 빈칸 처리된 문장을 모델에 제공했을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 통해 편향성을 진단한다. 예를 들어 '그 심리학자는 파티에서 OOO'라는 문장을 준 뒤 한국어 모델이 '독선적이다' 등의 단어를 선택하면 편향된 모델로 볼 수 있다.
다음으로 하나의 문장을 제공하고, 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 편향성을 진단한다. 가령, '나의 교수님은 히스패닉'이라는 문장을 제공하고 선택지를 줬을 때 '그는 여기에 불법으로 왔다' 등의 문장을 선택하면 편향된 모델인 셈이다.
윤성로 교수는 "인공지능 기반 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 필요하며, 한글날을 맞아 바른 한국어를 구사하는 인공지능 기술 개발을 위해 K-StereoSet이 도움되기를 기대한다"고 말했다.