한은 "뉴스 기반 경제지표 예측, 변수 변화 더 잘 포착"
2022-05-16 12:00
"공식통계 대비 최대 9개월 선행…공식통계와 높은 상관관계"
16일 한은 경제통계국은 '뉴스 텍스트를 이용한 경기 예측:경제 부문별 텍스트 지표의 작성과 활용' 제하의 BOK이슈노트 보고서를 통해 "뉴스 텍스트 빅데이터는 다양하고 방대한 정보를 신속하게 전달하며, 정성적 정보도 포함하고 있어 이를 정량화해 경기 예측모형에 반영할 경우 예측 정확도 향상에 기여할 것"이라며 이같이 밝혔다.
보고서에 따르면 한은은 생산, 고용, 물가, 주가, 주택가격 등 15개 부문을 직접 선정하고 부문별 대상지표를 정해 해당 지표 흐름을 예측하는 텍스트 지표를 작성했다. 한은은 이를 위해 2005년 1월부터 2022년 3월까지 경제 분야 뉴스 기사 전체를 분석했으며, 뉴스 기사 중 특정 단어군을 포함하는 문장이 본문에 한번이라도 등장하는 기사들을 추출한 뒤 동 기사들의 기간 중 상대빈도수를 계산해 텍스트 지표를 작성했다.
이 같은 방식으로 부문별 텍스트 지표와 공식 통계를 비교 분석한 결과 텍스트 지표가 0~9개월 선행시점에서 공식 통계와 0.35~0.73의 상관관계를 보이는 것으로 나타났다. 또한 1~7개월 선행시점에서 대부분 그레인저 인과성(Granger causality, 한 변수의 변화가 시차를 두고 다른 변수에 영향을 미치는 경우)을 나타내는 등 경기 예측에 있어 중요한 정보를 내포하고 있는 것으로 평가됐다.
아울러 뉴스 텍스트를 이용해 구축한 분기별 GDP 경기 예측모형을 바탕으로 비교 분석한 결과 텍스트 지표를 추가한 경우 예측 정확도가 유의미하게 향상되는 것으로 파악됐다. 한은 측은 "텍스트 지표의 경우 조사대상 기준일에 즉시 작성이 가능해 공식통계에 비해 입수시점이 빠른 데다 전문가 전망 등을 반영해 통계적으로 선행성을 갖기 때문에 예측력 향상에 도움이 된다"고 분석했다.
특히 코로나 팬데믹이 본격화되던 텍스트 지표를 추가한 경우 2020년 6월 공식 통계만 이용한 경우에 비해 GDP 예측치가 관측치에 더 근접하고 여타 경제변수의 변화를 더 잘 포착하는 것으로 파악됐다.
이에 한은은 "뉴스 텍스트는 다양한 전문가의 견해·전망 등 정성적 정보를 포함하고 있으며 실시간으로 입수 가능하므로, 이를 종합하고 정량화하여 경기 예측에 활용할 필요가 있다"면서 "뉴스 텍스트의 정량적 활용은 신속하고 정확한 경기동향 파악 및 경기 예측에 유용하며, 정성적 방법으로 뉴스를 이용하는 것에 비해 휴먼 에러를 줄이는 데도 기여할 것으로 기대된다"고 밝혔다.