아래아한글 기본문서, AI도 읽기 좋게 바뀐다

2021-04-15 14:52
한컴오피스 정기패치 적용후 '한글' 동작
기본 문서저장형식 'HWP'에서 'HWPX'로
별도 처리 없이 내용 추출·분류 가능해져
"빅데이터분석·AI분야 문서 활용도 높여"
HWPX 문서형식 ISO 국제표준화도 추진

국민 워드프로세서 '아래아한글' 기본 문서 파일 형식이 인공지능(AI)으로 처리되기 쉽게 바뀐다. 작성된 문서 저장시 소위 '머신리더블(Machine Readable, 기계 판독 가능한) 포맷'을 기본 설정으로 쓰게 된다.

한글과컴퓨터는 아래아한글 문서 기본형식을 개방형인 'HWPX'로 변환하는 정기 패치를 실시한다고 15일 밝혔다. 아래아한글 사용자가 정기 패치를 실행한 이후 문서를 저장하는 기본 파일 형식은 HWP가 아닌 HWPX로 바뀐다. 패치는 한컴오피스 2014 VP, 한컴오피스 네오, 한컴오피스 2018, 한컴오피스 2020 제품의 '한글'을 대상으로 적용된다.

HWPX는 한컴이 지난 2010년부터 지원해 온 파일 포맷이다. 한국산업표준(KS X 6101)인 '개방형 워드프로세서 표시 언어(OWPML)' 규격을 구현한 것이다. OWPML은 기존 아래아한글 문서 기본 포맷인 'HWP'의 서식과 기능 명세를 XML로 기술한 것인데, XML로 기술된 규격을 따르는 문서는 컴퓨터 시스템에서 일반 텍스트 파일로 저장된다.

일반 텍스트 파일은 전용 편집기나 뷰어 없이 '메모장'같은 시스템에 기본 탑재된 프로그램으로 열린다. 일반 텍스트 파일로 저장된 HWPX 문서도 마찬가지다. 한컴오피스나 한컴오피스 뷰어가 설치되지 않은 컴퓨터로 HWPX 파일을 열고 그 본문, 표, 첨부자료, 서식 등의 의미있는 정보를 꺼낼 수 있다.

이처럼 별도의 데이터 처리 과정을 거치거나 특수한 프로그램을 사용하지 않고 문서에 담긴 데이터를 다룰 수 있는 유형의 파일 형식을 머신리더블 포맷이라고 일컫는다. 보편적인 아래아한글 문서가 머신리더블 포맷으로 저장된다면 많은 사용자들이 활용하는 한글 문서의 빅데이터 분석과 AI 기술 개발 분야 활용도를 크게 높일 수 있을 전망이다.

한컴 관계자는 "디지털전환이 가속화됨에 따라 전자문서 데이터의 중요도가 더욱 높아지고 있는 만큼, 아래아한글을 머신리더블한 HWPX로 본격 변환함으로써 전자문서 국제 표준화를 선도하고 활용도를 더욱 넓혀 나가겠다"며 "한국전자문서산업협회와 함께 국제표준화기구(ISO)에 HWPX를 국제표준으로 지정하기 위한 협력도 추진한다"고 밝혔다.
 

[사진=한글과컴퓨터 제공]