​NC-고려대, 사용자 맞춤형 정보 학습하는 AI 대화 데이터셋 공개

2022-04-14 14:57
  • 글자크기 설정

고려대학교 임희석 교수 연구팀과 AI 대화 공동연구

사용자 성향과 외부 지식을 활용하는 데이터셋 구축

엔씨소프트 판교 R&D 센터 전경[사진=엔씨소프트]

엔씨소프트(이하 NC)가 고려대학교 임희석 교수 연구팀과 공동연구를 통해 구축한 인공지능(AI) 대화 데이터 '포커스 데이터셋(FoCus Dataset, For Customized conversation dataset)'을 공개했다고 14일 밝혔다.

포커스 데이터셋은 사용자 개인의 성향과 외부 지식을 모두 활용하는 AI 대화 데이터셋으로, 약 8000개의 광범위한 주제를 다룬 1만5000개 이상의 대화로 구성돼 있다. 이를 적용한 AI는 대화하고 있는 사용자의 경험, 선호, 소유, 흥미 등을 파악하고 위키백과에서 이야기 주제에 대한 최신 지식을 실시간으로 습득해 자연스러운 대화가 가능하다.

특히 초거대 언어 모델을 사용하지 않고도 높은 성능의 대화 기술 구현이 가능한 것이 특징이다. 현재 일반적인 대용량 언어모델은 학습과 추론에 많은 비용이 소요되지만, 실시간 지식과 개인의 경험을 반영하는데 한계를 나타내고 있다.

공동연구팀은 올해 2월 인공지능 학회 'AAAI 2022'에서 해당 연구 논문을 게재·발표했다. 오는 10월에는 세계 전산언어학회인 'COLING 2022'에서 데이터 활용 경진 대회를 비롯한 연구 성과를 공유하는 워크숍도 고려대와 공동 개최한다.

이연수 NC 언어 AI 연구소 실장은 "최근 자연어 처리 학계에서는 비용과 환경 문제로 초거대 언어모델 기반의 대화 기술에 필적할 수 있는 새로운 대화 기술이 제안되고 있다"며 "이러한 연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했으며, 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지기를 기대한다"고 설명했다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
공유하기
닫기
기사 이미지 확대 보기
닫기