정보화진흥원, 한글 빅데이터 분석 효과 향상을 위한 한글 형태소 사전 제작

2017-02-21 15:12

[한국정보화진흥원]


아주경제 이정하 기자 = 한국정보화진흥원(NIA)은 텍스트 분석 및 활용의 촉진과 빅데이터 관련 서비스 개발을 지원하고자 한글 텍스트 분석의 핵심요소인 형태소 사전을 제작·개방한다고 21일 밝혔다.

국립국어원의 우리말 샘 사전을 바탕으로 제작된 형태소 사전은 'NIADic'로 기존의 세종Dic(9만 단어)외에 신조어와 법률, 의료 등 6대 분야별 전문단어를 추가해 빈도수 및 연관분석 측면에서 의미있는 데이터 분석이 가능해졌다.

현재까지는 오픈소스 기반의 KoNLP의 세종사전(Sejong Dic)을 통해 텍스트 분석을 수행해 왔으나 단어수와 신조어가 부족하여 새로운 형태소 사전 제작에 대한 요구가 지속돼 왔다.

NIA는 형태소사전을 빅데이터센터를 통해 공개하고, 중소기업, 연구자, 일반인 등이 쉽게 분석·활용할 수 있도록 오픈소스 빅데이터 분석도구인 R의 한글분석 패키지 KoNLP의 기초사전으로 제공한다.

이를 통해 한글 빅데이터 분석의 정확성과 신뢰도를 높일 뿐 아니라 형태소 사전 중복개발의 비용절감과, 신규 서비스 개발 주기도 단축할 수 있다.

특히, 최근 급증하고 있는 음성인식 기반의 다양한 사물인터넷(IoT) 서비스 개발 시 한글인식 성능 개선에도 기여할 것으로 보인다.

빅데이터센터의 권영일 센터장은 "형태소 사전의 형태소 수가 많을수록 어휘간의 연관성에서 찾을 수 있는 유의미한 분석결과를 도출할 수 있어서 향후 중소기업, 스타트업 등 다양한 분야의 한글 빅데이터 분석에 활용될 것"이라고 밝혔다.