한국과학기술정보연구원(KISTI)이 과학기술 분야 기계학습데이터 구축 사업 결과물을 누구나 쉽게 활용할 수 있도록 과학기술 지식인프라 'ScienceON'에서 공개한다.
KISTI는 기계학습데이터 구축 사업을 통해 과학기술 분야 국내논문과 국가R&D연구보고서를 토대로 AI를 위한 데이터셋 5종, 425만 건을 구축했다. 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 ScienceON의 기존 학술정보 서비스에 기계학습데이터를 접목한 서비스를 선보인다.
또한, 논문 QA 데이터를 활용해 핵심 어휘를 질문과 답변 형식으로 풀어 제공하고, 논문 문장 의미 태깅을 통해 연구목적, 연구방법, 연구결과를 요약 제공함으로써 이용자가 논문을 빠르게 선택할 수 있도록 도움을 준다. 이 외에도 요약 정보를 PDF 원문에 표시해 PDF 원문 가독성을 높였으며, 특정 참고문헌이 인용된 문장도 논문에서 바로 확인할 수 있도록 했다.