정보화진흥원, 한글 빅데이터 분석 효과 향상을 위한 한글 형태소 사전 제작
2017-02-21 15:12
아주경제 이정하 기자 = 한국정보화진흥원(NIA)은 텍스트 분석 및 활용의 촉진과 빅데이터 관련 서비스 개발을 지원하고자 한글 텍스트 분석의 핵심요소인 형태소 사전을 제작·개방한다고 21일 밝혔다.
국립국어원의 우리말 샘 사전을 바탕으로 제작된 형태소 사전은 'NIADic'로 기존의 세종Dic(9만 단어)외에 신조어와 법률, 의료 등 6대 분야별 전문단어를 추가해 빈도수 및 연관분석 측면에서 의미있는 데이터 분석이 가능해졌다.
현재까지는 오픈소스 기반의 KoNLP의 세종사전(Sejong Dic)을 통해 텍스트 분석을 수행해 왔으나 단어수와 신조어가 부족하여 새로운 형태소 사전 제작에 대한 요구가 지속돼 왔다.
이를 통해 한글 빅데이터 분석의 정확성과 신뢰도를 높일 뿐 아니라 형태소 사전 중복개발의 비용절감과, 신규 서비스 개발 주기도 단축할 수 있다.
특히, 최근 급증하고 있는 음성인식 기반의 다양한 사물인터넷(IoT) 서비스 개발 시 한글인식 성능 개선에도 기여할 것으로 보인다.