아주경제 이정하 기자 = 한국정보화진흥원(NIA)은 텍스트 분석 및 활용의 촉진과 빅데이터 관련 서비스 개발을 지원하고자 한글 텍스트 분석의 핵심요소인 형태소 사전을 제작·개방한다고 21일 밝혔다.
국립국어원의 우리말 샘 사전을 바탕으로 제작된 형태소 사전은 'NIADic'로 기존의 세종Dic(9만 단어)외에 신조어와 법률, 의료 등 6대 분야별 전문단어를 추가해 빈도수 및 연관분석 측면에서 의미있는 데이터 분석이 가능해졌다.
NIA는 형태소사전을 빅데이터센터를 통해 공개하고, 중소기업, 연구자, 일반인 등이 쉽게 분석·활용할 수 있도록 오픈소스 빅데이터 분석도구인 R의 한글분석 패키지 KoNLP의 기초사전으로 제공한다.
이를 통해 한글 빅데이터 분석의 정확성과 신뢰도를 높일 뿐 아니라 형태소 사전 중복개발의 비용절감과, 신규 서비스 개발 주기도 단축할 수 있다.
특히, 최근 급증하고 있는 음성인식 기반의 다양한 사물인터넷(IoT) 서비스 개발 시 한글인식 성능 개선에도 기여할 것으로 보인다.
빅데이터센터의 권영일 센터장은 "형태소 사전의 형태소 수가 많을수록 어휘간의 연관성에서 찾을 수 있는 유의미한 분석결과를 도출할 수 있어서 향후 중소기업, 스타트업 등 다양한 분야의 한글 빅데이터 분석에 활용될 것"이라고 밝혔다.