대화형 인공지능 언어모델인 챗(Chat)GPT가 2022년 11월에 공개되자마자 전 세계적으로 폭발적인 관심을 불러일으키며 출시 2개월 만에 월간 활성 이용자수가 1억 명을 돌파했다.
다만 챗GPT와 같은 초거대 AI 개발에는 천문학적 비용과 자원이 필요할 뿐만 아니라 학습 데이터에 대한 저작권 침해, 기밀정보의 해외 유출 등과 같은 보안 문제가 지속적으로 제기되는 실정이다.
이로 인해 오픈AI, 마이크로소프트(MS), 구글 등 글로벌 빅테크 기업이 주도하는 초거대 AI에 대한 관심과 기술개발 경쟁이 가속화되고 있다. 문제는 국내의 경우 일부 대기업을 제외한 대학, 연구소, 중소기업은 초거대 AI 기술 개발 및 활용이 어려운 현실이다.
이에 현재 AI 기술이 가진 한계점을 극복하고 기술을 적극적으로 활용하기 위해 지식재산 분야 빅데이터를 활용한 초거대 AI 모델을 개발할 필요가 있다는 제언이 나온다.
최근 한국지식재산연구원은 '지식재산 분야의 빅데이터 및 초거대 AI 기술 활용 방안에 관한 보고서'를 발간했다. 보고서에 따르면 관세·지식재산 데이터를 연계해 국내 특허권, 상표권, 저작권, 디자인권 등의 지식재산권 침해를 사전에 예방하고 국내 산업을 보호할 수 있는 인공지능(AI) 활용 연구가 가능하다.
보고서는 글로벌 빅테크 기업이 주도하고 있는 초거대 언어 모델은 개발에 천문학적인 비용과 자원이 필요하고, 또 학습 데이터와 관련해 분쟁과 소송이 제기되고 있다고 진단했다. 특히 국내의 경우 해외 기업 서비스를 이용하는 과정에서 보안 데이터가 유출될 수 있어 초거대 AI 개발과 활용에 어려움이 있다고 분석했다.
이어 학습 데이터 저작권 침해 이슈와 관련해서는 지식재산 관련 데이터를 학습 데이터로 활용하면 국가기술 경쟁력 핵심요소인 지식재산 분야에서 심사·심판 행정 업무 효율성 증진과 중소기업 출원인 비용 절감, 지식재산 침해 예방 및 보호 등에 인공지능 기술을 활용할 수 있을 것이라고 밝혔다.
이어 초거대 AI 및 멀티모달(Multi-modal) 기반 인공지능 기술이 발전함에 따라 학습·분석 데이터 범위를 확장해 다양한 영역의 데이터를 연결하는 유연한 사고 확장이 필요하다고 제언했다.
지식재산 분야도 기업 재무정보, 경제 지표, 관세 데이터, 각종 이미지, 동영상, 소셜미디어 및 온라인 커뮤니티 데이터, 설문 결과 등 타 분야의 정형(structured)·비정형(unstructured) 데이터를 기존의 전통적인 지식재산 데이터와 연계해 학습하고 분석하면 더 다양한 생성형 인공지능 서비스를 개발할 수 있다는 의미다.
또 데이터 활용과 관련해 정부의 경직된 조직문화 개선이 인공지능 기술 활용에 필수적이라고 지적했다. 타 분야의 정형·비정형 데이터 및 공공데이터를 효과적으로 연계하고 분석하기 위해서는 데이터를 소유한 각 부처 간에 데이터 수집, 전처리, 공유, 활용에 있어 효율적이고 통일된 프로세스를 확립하고, 데이터 분야 전문가 양성 또는 데이터 관련 교육을 체계적으로 제공해야 한다는 시각에서다.
보고서는 초거대 AI 모델은 방대한 양의 학습 데이터로 수천억 개의 파라미터 연산을 수행하기 위해 천문학적인 비용과 자원이 필요하므로 글로벌 빅테크 기업과의 기술 격차를 줄이기 위해 정부가 지속적으로 관심을 가지고 적극적으로 투자해야 한다고 지적했다.
아울러 공공부문에서 보유하고 있는 알고리즘, 데이터, 컴퓨팅 리소스를 공유할 수 있는 플랫폼을 구축하고, 정부의 AI 인프라 지원 및 AI 생태계 조성 등의 역할 수행이 시급하다고 진단했다.
다만 챗GPT와 같은 초거대 AI 개발에는 천문학적 비용과 자원이 필요할 뿐만 아니라 학습 데이터에 대한 저작권 침해, 기밀정보의 해외 유출 등과 같은 보안 문제가 지속적으로 제기되는 실정이다.
이로 인해 오픈AI, 마이크로소프트(MS), 구글 등 글로벌 빅테크 기업이 주도하는 초거대 AI에 대한 관심과 기술개발 경쟁이 가속화되고 있다. 문제는 국내의 경우 일부 대기업을 제외한 대학, 연구소, 중소기업은 초거대 AI 기술 개발 및 활용이 어려운 현실이다.
이에 현재 AI 기술이 가진 한계점을 극복하고 기술을 적극적으로 활용하기 위해 지식재산 분야 빅데이터를 활용한 초거대 AI 모델을 개발할 필요가 있다는 제언이 나온다.
보고서는 글로벌 빅테크 기업이 주도하고 있는 초거대 언어 모델은 개발에 천문학적인 비용과 자원이 필요하고, 또 학습 데이터와 관련해 분쟁과 소송이 제기되고 있다고 진단했다. 특히 국내의 경우 해외 기업 서비스를 이용하는 과정에서 보안 데이터가 유출될 수 있어 초거대 AI 개발과 활용에 어려움이 있다고 분석했다.
이어 학습 데이터 저작권 침해 이슈와 관련해서는 지식재산 관련 데이터를 학습 데이터로 활용하면 국가기술 경쟁력 핵심요소인 지식재산 분야에서 심사·심판 행정 업무 효율성 증진과 중소기업 출원인 비용 절감, 지식재산 침해 예방 및 보호 등에 인공지능 기술을 활용할 수 있을 것이라고 밝혔다.
이어 초거대 AI 및 멀티모달(Multi-modal) 기반 인공지능 기술이 발전함에 따라 학습·분석 데이터 범위를 확장해 다양한 영역의 데이터를 연결하는 유연한 사고 확장이 필요하다고 제언했다.
지식재산 분야도 기업 재무정보, 경제 지표, 관세 데이터, 각종 이미지, 동영상, 소셜미디어 및 온라인 커뮤니티 데이터, 설문 결과 등 타 분야의 정형(structured)·비정형(unstructured) 데이터를 기존의 전통적인 지식재산 데이터와 연계해 학습하고 분석하면 더 다양한 생성형 인공지능 서비스를 개발할 수 있다는 의미다.
또 데이터 활용과 관련해 정부의 경직된 조직문화 개선이 인공지능 기술 활용에 필수적이라고 지적했다. 타 분야의 정형·비정형 데이터 및 공공데이터를 효과적으로 연계하고 분석하기 위해서는 데이터를 소유한 각 부처 간에 데이터 수집, 전처리, 공유, 활용에 있어 효율적이고 통일된 프로세스를 확립하고, 데이터 분야 전문가 양성 또는 데이터 관련 교육을 체계적으로 제공해야 한다는 시각에서다.
보고서는 초거대 AI 모델은 방대한 양의 학습 데이터로 수천억 개의 파라미터 연산을 수행하기 위해 천문학적인 비용과 자원이 필요하므로 글로벌 빅테크 기업과의 기술 격차를 줄이기 위해 정부가 지속적으로 관심을 가지고 적극적으로 투자해야 한다고 지적했다.
아울러 공공부문에서 보유하고 있는 알고리즘, 데이터, 컴퓨팅 리소스를 공유할 수 있는 플랫폼을 구축하고, 정부의 AI 인프라 지원 및 AI 생태계 조성 등의 역할 수행이 시급하다고 진단했다.