한국정보화진흥원(NIA)이 인공지능 학습용 데이터인 '대규모 한국형 사물 이미지 360만 장을 구축해 1월부터 전격 공개했다고 밝혔다.
VR촬영 및 인공지능 기반 이미지 데이터베이스 전문기업 미디어그룹사람과숲 주관해 진행된 이번 사업은 인공지능 학습을 위한 대규모 한국형 사물이미지 구축을 목표로 이뤄졌다. 이번 사업으로 한국정보화진흥원은 △국가지정문화재의 고궁, 탑, 성곽 등 유적건조물 260만 장 △신발, 가방, 모자 등 상품 80만 장 △35개 도시 랜드마크 20만 장 등 총 360만 장 이상의 데이터를 확보했다.
한국정보화진흥원은 2017년부터 AI 학습용 데이터 구축‧확산 사업을 시행했다.
법률, 특허, 일반상식, 한국형 이미지 등 데이터셋 4종 구축을 시작으로 지난해 1월에는 관광, 농업, 헬스케어 등 7종을 개방했다.
작년 5월 한국정보화진흥원은 미디어그룹사람과숲을 사업자로 선정해 6개월 간 한국형 사물이미지 360만 장과 종별 최소 3,000장의 이미지를 구축했다.
미디어그룹사람과숲 관계자는 "국가지정문화재인 유적건조물은 문화재청의 분류체계를 차용해 설계했으며 850여 개의 대상체에 대해 서울, 경기, 인천, 경주 지역을 중심으로 촬영과 수집을 진행했다"고 밝혔다.
또 "상품은 대형 온라인 마켓의 분류체계를 참조했으며 외국인 관광객 선호 상품과 한국에서 생산‧유통되는 상품을 기준으로 귀금속, 신발, 화장품 등 250여 개 대상체를 수집했다."고 전했다. 랜드마크는 제주도를 포함해 전국 35개 도시의 대표적인 67개 랜드마크가 선정됐다.
관계자는 "특히 이번 사업의 온톨로지 사전에 해당하는 ADAM KB는 사람, 장소 등 7가지 도메인 영역에서 2천 6백만 개의 인스턴스를 확보하고 있으며, 추론 후의 트리플 수는 4억 5천만 개로 아시아 최대 규모를 자랑한다."고 말했다.
이번에 구축된 한국형 사물 이미지 데이터 360만 장은 한국정보화진흥원이 운영하는 AI허브 홈페이지에 공개됐으며, 향후 스마트관광, 스마트교육, 스마트공장 및 스마트스토어 등 다양한 분야에서 활용될 예정이다.
한윤기 미디어그룹사람과숲 대표는 “이번 한국형 사물이미지 학습용 데이터 구축이 국내 특성에 맞는 인공지능 학습데이터 부족에 대한 갈증을 해소해주는 것은 물론, 다양한 한국형 AI 기술 개발을 위한 밑거름이 될 것”이라며, “앞으로도 한국형 인공지능의 글로벌 경쟁력 향상을 위해 최선을 다하겠다”라고 말했다.
VR촬영 및 인공지능 기반 이미지 데이터베이스 전문기업 미디어그룹사람과숲 주관해 진행된 이번 사업은 인공지능 학습을 위한 대규모 한국형 사물이미지 구축을 목표로 이뤄졌다. 이번 사업으로 한국정보화진흥원은 △국가지정문화재의 고궁, 탑, 성곽 등 유적건조물 260만 장 △신발, 가방, 모자 등 상품 80만 장 △35개 도시 랜드마크 20만 장 등 총 360만 장 이상의 데이터를 확보했다.
한국정보화진흥원은 2017년부터 AI 학습용 데이터 구축‧확산 사업을 시행했다.
법률, 특허, 일반상식, 한국형 이미지 등 데이터셋 4종 구축을 시작으로 지난해 1월에는 관광, 농업, 헬스케어 등 7종을 개방했다.
미디어그룹사람과숲 관계자는 "국가지정문화재인 유적건조물은 문화재청의 분류체계를 차용해 설계했으며 850여 개의 대상체에 대해 서울, 경기, 인천, 경주 지역을 중심으로 촬영과 수집을 진행했다"고 밝혔다.
또 "상품은 대형 온라인 마켓의 분류체계를 참조했으며 외국인 관광객 선호 상품과 한국에서 생산‧유통되는 상품을 기준으로 귀금속, 신발, 화장품 등 250여 개 대상체를 수집했다."고 전했다. 랜드마크는 제주도를 포함해 전국 35개 도시의 대표적인 67개 랜드마크가 선정됐다.
관계자는 "특히 이번 사업의 온톨로지 사전에 해당하는 ADAM KB는 사람, 장소 등 7가지 도메인 영역에서 2천 6백만 개의 인스턴스를 확보하고 있으며, 추론 후의 트리플 수는 4억 5천만 개로 아시아 최대 규모를 자랑한다."고 말했다.
이번에 구축된 한국형 사물 이미지 데이터 360만 장은 한국정보화진흥원이 운영하는 AI허브 홈페이지에 공개됐으며, 향후 스마트관광, 스마트교육, 스마트공장 및 스마트스토어 등 다양한 분야에서 활용될 예정이다.
한윤기 미디어그룹사람과숲 대표는 “이번 한국형 사물이미지 학습용 데이터 구축이 국내 특성에 맞는 인공지능 학습데이터 부족에 대한 갈증을 해소해주는 것은 물론, 다양한 한국형 AI 기술 개발을 위한 밑거름이 될 것”이라며, “앞으로도 한국형 인공지능의 글로벌 경쟁력 향상을 위해 최선을 다하겠다”라고 말했다.