[전문가 칼럼] 인공지능, 학습데이터 생산하는 '데이터 팜' 필요하다
챗GPT로 촉발된 초거대 인공지능(AI)은 국가의 미래 경쟁력을 좌우하는 핵심요소이자 기업의 신성장 동력으로 꼽힌다. 국가나 기업뿐 아니라 일반 개인에게도 인공지능은 편리한 일상을 만들어 가는 생활필수품으로 자리를 잡아가고 있다. 이러한 인공지능 고도화에 있어 밑거름이 되는 것이 바로 데이터다.
한국인은 흔히 밥심으로 살아간다고 한다. 쌀이 한국인의 삶에 있어 기초 생필품이라면 학습데이터는 바로 인공지능의 쌀이다. 학습데이터 없이는 인공지능의 성장을 기대하기 어렵기 때문이다. 문제는 풍부한 양질의 학습데이터를 확보하는 것이 현실적으로 쉽지 않다는 것이다. 또한 인공지능 규모가 커질수록 데이터 부족 현상은 한층 심화된다. 이러한 데이터 부족을 해결할 수 있는 기술이 바로 합성데이터(Synthetic Data)다.
유럽데이터보호감독기구(EDPS)는 합성데이터에 대해 원본데이터 특성과 구조를 재생산하기 위해 대상 모델 및 원본데이터로부터 생성된 인공데이터로, 합성데이터와 원본데이터가 동일한 통계적 분석을 수행할 경우 매우 유사한 결과를 만들어낸다고 말한다. 즉, 합성데이터는 원본데이터와 유사한 데이터를 대량 생산하는 인공지능 학습데이터 생산기술이다. 이를테면 철수와 영희의 카드 이용 내역을 학습해 가상의 인물인 밥(Bob)과 앨리스(Alice)의 카드 이용 내역을 만들어내는 식이다.
합성데이터 생산기술을 이용하면 다량의 데이터를 효율적으로 생산할 수 있는 인공지능 데이터 팜(Data farm)을 만들 수 있다. 인공지능 데이터 팜에 원본데이터의 씨앗을 뿌리고, 생산된 합성데이터 중 선별하여 학습데이터로 공급함으로써 인공지능의 데이터 부족 문제를 해결할 수 있을 것이다.
합성데이터는 금융권에서 특히 더욱 유용할 것으로 기대된다. 금융권의 데이터는 고객의 재산, 신용 및 금융거래에 관한 정보로 개인정보유출은 물론 오∙남용에 따른 금전적 손실과 경제적 피해까지 초래할 수 있어 인공지능 학습데이터로 활용하기에는 한계가 있다. 합성데이터가 이 같은 부작용 우려를 해결하는 대체재가 될 수 있을 것이다.
앞서 지난 2018년 4월 온라인 상에서는 가짜 오바마 영상이 유튜브에 등장해 화제가 된 바 있다. 세간을 더욱 놀라게 한 것은 외양이 흡사한 닮은꼴의 등장이 아닌 딥페이크(Deepfake) 기술을 이용한 가짜 영상이었다는 점이다. 이처럼 가짜 영상을 만들 때에도 인공지능 기술(GAN: Generative Adversarial Network)이 이용됐다.
기술적 배경이 동일한 합성데이터 또한 이와 같이 악용될 가능성을 충분히 지니고 있다. 개인정보 유출에 대한 주의도 필요하다. 고객의 신용정보를 사용해 합성데이터를 대량으로 만들다 보면 그 특성과 패턴으로 원본 신용정보가 유추될 가능성도 존재한다. 원본데이터를 재식별해 낼 가능성이 충분히 낮은지, 즉 합성데이터의 익명성에 대해서는 빈틈이 없는지 반드시 확인을 거쳐야 한다.
이러한 각양각색의 데이터 활용 과정에서 중요한 것이 바로 금융보안기관의 역할이다. 금융권에서 인공지능∙데이터∙정보보호 전문성을 가진 금융보안원과 같은 전문기관이 신뢰할 수 있는 인공지능 데이터 팜을 운영해 양질의 합성데이터를 생산하고 안전하게 금융권에 공급할 수 있는 체계를 확보한다면, 금융회사는 인공지능 기술을 활용하여 신속∙정확∙효율적으로 금융서비스를 제공하고, 금융소비자들은 초개인화된 맞춤형 금융서비스를 편리하고 안전하게 이용할 수 있을 것이다.
'쓰레기가 들어가면 쓰레기가 나온다(GIGO: Garbage In, Garbage Out)'라는 말이 있다. 이는 곧 올바르지 않은 데이터가 사용되면 이를 학습한 인공지능 역시 잘못된 결과를 도출하게 된다는 의미이기도 하다. 금융권에 신뢰할 수 있는 인공지능 생태계를 마련하기 위해 신뢰할 수 있는 학습용 합성데이터를 생산할 수 있는 인공지능 데이터 팜 구축 체계가 조속히 마련되기를 기대한다.