- - 카이스트 경영대학원 교수
- 미국 일리노이대(어바나 샴페인) 전산학 박사
- 유럽 IT학회 아시아 대표이사
- 카이스트, 케임브리지대, 에든버러대 전산학과 교수
-
중국이 첨단 기술을 확보하지 못하도록 미국이 모든 조치를 취하고 있다는 표제의 보도가 종종 등장한다. 미국이 첨단 반도체를 비롯하여 이제는 소프트웨어까지 대중국 수출 규제를 강화하겠다는 뜻이다. 군사적 이유가 가장 크다. 그다음은 산업적 및 기술적 이유다. 그런데 그런 보도에서 눈여겨볼 대목은 규제의 주체가 미국 국방부나 국가안보부가 아니고 상무부라는 사실이다. 왜 상무부일까. 대중국 규제의 내용을 보면 미국 하원 세입소위원회 청문회에 출석한 미국 상무부 장관이 “중국이 첨단 기술을 확보하지 못하도록 필요한 조치를 하고 있다”는 말을 했다고 한다. 하원 세입위원회란 어떤 곳인가. 미국의 대외 공급 사슬 관리를 포함한 무역정책 및 자유무역협정 등 통상정책과 과세 정책을 담당하는 핵심 위원회로 규정되어 있다. 여기서 눈에 띄는 것은 ‘대외 공급 사슬’이란 단어다. 공급 사슬 업무는 본질적으로 원래 상무부 업무에 해당한다. 공급 사슬 관리 목적으로 미국이 반도체 지원금을 지원하는 국가 수는 중국을 제외한 `무려 11개로 파악된다. 아시아에서는 우리나라는 물론 대만, 일본, 말레이시아에 이어 베트남까지도 포함된다. 중국의 산업 첨단화를 규제하기 위한 목적으로 국제사회에 지원하는 것이기에 중국이 제외되는 것은 당연했다. 이 반도체 지원 정책이 의회에서는 하원 세입위원회 소관이며 정부 부처로는 다름아닌 상무부 소관이다. 그렇다면 미국 상무부는 무엇을 하는 곳일까. 알기 쉽게 결론부터 말하면 세계 인터넷에 대한 통제권을 갖고 있는 막강한 미국의 정부 부처다. 조금 의아해 할 사람들도 있겠으나 전후 사정을 자세히 살펴보면 이렇다. 상무부 홈 페이지를 보면 상무부의 역할은 '모든 공동체를 위해 경제적 성장과 기회를 추구하기 위한 조건들을 조성해준다'로 명시되어 있다. 또한 미국의 경쟁 우위를 도모하기 위한 혁신과 발명, 창조를 주도하고, 예를 들면 양자 컴퓨팅 기술과 인공지능(AI) 같은 첨단 분야를 주도할 뿐만 아니라 데이터 경제까지도 주도하는 주체로 정의되어 있다. 디지털 및 데이터부를 정부 부처로 따로 두고 있는 영국 같은 나라와는 달리 미국은 상무부가 디지털과 데이터 쪽까지 관장하는 것으로 되어 있다. 그증의 핵심은 단연 인터넷이다. 그걸 상무부가 직접 관장한다는 뜻이다. 많은 이들은 인터넷은 국제 공유재로 생각한다. 주인도 없이 마음껏 자유자재로 쓰게끔 누구에 의해선가 허용되어 있다고 추측한다. 그러나 과연 그럴까. 답은 아니다. 인터넷의 실권자는 1978년 이후로는 미국 상무부다. 지금도 여전히 그러하여 인터넷의 총체적 관할권은 전적으로 미국 상무부에 의존하고 있다. 상무부 내 관할 기구의 정확한 명칭은 국가 원격통신 및 정보 관리청이다. 이 기구는 국가 정부통신 정책 일체에 관해 대통령을 직접 자문하는 기구로 되어 있다. 인터넷이 탄생한 것은 1969년 10월이다. 그 당시는 미국 국방부가 인터넷의 주인이었다. 지금은 인터넷 사용자 수가 55억명에 이르고 있지만 1995년 기준으로 인터넷 사용자 수는 불과 1000만명 수준이었다. 1970년부터 1977년까지는 인터넷 사용자 수가 수십만 명으로 미국 국방부가 관할하다가 인터넷이 주로 학계 쪽에서 교수와 대학원생 위주로 사용되면서 관할권이 미국과학재단으로 넘어갔고 1980년대로 향하면서 인터넷 사용자 수가 수백만 명으로 늘어났다. 그러다 인터넷 인구가 1억명을 처음으로 돌파한 1998년 미국은 ICANN이라는 인터넷 주소 관리 목적의 비영리기구를 설립한다. 지금은 ICANN이 미국 정부에 의존하지 않는 형태의 독립 국제 기구로서 작동하고 있기는 하나 지금도 ICANN 본부가 미국에 위치하고 있는 만큼 미국의 입김이 여전히 강할 수밖에 없는 현실적 구조로 되어 있다는 점은 결코 누구도 부인할 수 없다. 그렇다고 한다면 미국 상무부가 인터넷 최상위 관리 권한을 여전히 쥐고 있다고 봐도 무방한 것이다. 전 세계 인터넷은 총 13개의 최상위 루트 서버로 관리된다. 일본에 1개, 네덜란드에 1개, 스웨덴에 1개를 제외하고는 나머지 10개는 전부 미국 본토에 위치해 있다. 이는 두말할 나위 없이 인터넷에서 미국의 절대적 위상을 잘 대변해주는 것이다. 인터넷상에서 벌어지는 일거수일투족을 미국은 한눈에 다 내려다보듯 샅샅이 알 수 있는 위치에 있다고 이해하면 된다. 코소보 사태 때나 리비아의 철권 독재자 카다피를 제거할 때, 빈 라덴 참수 작전 시 미국이 작전을 펼치기 전에 적국 내 인터넷 접속 기능을 사전에 차단한 다음 공격을 감행한 것을 보면 미국의 영향력을 짐작할 수 있을 것이다. 또한 과거 북한의 인터넷을 일주일간 차단한 일도 널리 잘 알려져 있는 사실이다. 미국의 영향력이 아니고서는 벌어지기 힘든 일이다. 따라서 오늘날에도 인터넷에 대한 통제권은 미국 상무부가 갖고 있다고 봐도 무방하다. 마치 유엔과 IMF 및 세계은행의 실권을 미국이 갖고 있듯이. 그러나 인터넷에 대한 통제를 미국이 자의적으로 하기에는 국제사회의 눈이 매섭다는 점도 미국은 잘 알고 있다. 또한 미국이 인터넷 통제권을 비합리적으로 행사하지는 않을 것이라는 기대감을 저버리기도 힘들다. 그러므로 미국은 인터넷 통제권을 사용하는 데 있어서 국제사회의 눈치를 의식하지 않을 수 없다. 반도체나 소프트웨어 수출 규제를 통해 적국을 견제하고자 하는 뜻은 실은 국가 안보에 있다. 미국산 반도체나 소프트웨어를 적국이 상업용으로 사용할 수 있지만 자칫하면 군사적으로도 미국 공격에 전용될 수도 있다고 보는 것이다. 미국이 축적한 방대한 자료를 학습한 생성AI 기술로 제작한 생화학 무기류를 동원한 공격 가능성을 배제할 수 없기 때문이다. 그래서 상무부는 중국이 첨단 기술을 확보하지 못하도록 필요한 모든 조치를 취하는 것으로 봐야 한다. 여태까지는 반도체에서만 대중국 수출을 엄격하게 통제해 왔지 오픈AI나 구글이 개발한 AI 모델에 대해선 따로 대외 수출 규제를 전혀 하지 않았다. 앞으로는 챗GTP 같은 AI 소프트웨어도 규제하겠다는 의도로 해석된다(로이터 2024년 5월 9일자). 그러고 보면 인터넷은 미국 국방부가 개발을 거쳐 탄생시킨 뒤 상무부가 유지·운영 중인 미국의 성공 작품이다. 위성항법장치 GPS 또한 마찬가지로 미국 우주항공국 NASA가 개발하여 민간 기업에 넘긴 기술로 성공 사례다. 개인적으로나 기업 운영을 위해 인터넷이, 또 자동차 항공기 선박 등에서 GPS가 전 세계적으로 편리하고 유용하게 사용되고 있으니 말이다. 그런데 면밀히 알고 보면 인터넷은 미국 고위공무원 두 명이 탄생시킨 것이다. 인터넷의 역사를 문헌상에서 보면 미국 캘리포니아 로스앤젤레스 UCLA 교수인 레오나드 클라인록 교수가 인터넷의 창시자로 등장한다. 학문적으로 보면 맞지만 인터넷이라는 개념을 원래 처음 착안한 사람은 미국 국방부 공무원 두 사람이었다. 대학에서 연구를 발의해서 연구비가 지원된 케이스가 아니라 정반대로 그 둘이 1966년 연구개발을 발의해 대학에 연구비를 제공한 끝에 3년 뒤인 1969년에 나온 게 인터넷이다. 그 공무원 이름은 조셉 릭라이더 그리고 로버트 테일러. 1969년 10월까지는 이 둘이 세계 문명을 바꿀 것이라고는 아무도 생각하지 못했다. 이 둘은 나중에 MIT 등에서 대학교수 생활을 하며 인터넷 개발 당시를 회고했다. 지금도 그런 동영상을 쉽게 검색해 볼 수 있다. 요즘 젊은이들이 짧은 영상에 매료되어 버스나 지하철에서 보고 있는데 인터넷 개발 주역의 인터뷰 영상을 한 번쯤은 봐야 하지 않을까. 인류의 선조들이 왜 언제 어떻게 인터넷 같은 것을 만들 수 있었는지 더욱이 그런 편리한 기술이 새로운 기술 개발 도전을 시도하는 학자나 수익을 도모하는 기업인의 머릿속에서 나온 것이 결코 아니라 공직자 머릿속에서 나왔다는 것에 대하여 깨달음이 있을 수 있지 않을까. 그렇다면 우리 공무원은 무엇을 하고 있는가. 세계 역사상에 상기 두 사람처럼 큰 족적을 남긴 자가 있는가. 봇물처럼 터져 나오는 각종 사건·사고를 처리하는 일에 공직 생활이 지나가고 있는가 아니면 인터넷 같은 꿈을 실현하기 위해 도전하고 있는가. 충격적이고도 신선한 해법을 동원하는 발상의 전환을 통해 행정망 마비 같은 문제도 해결 가능하건만 새로운 시도조차 해보지도 않은 채 사회 전반에 걸쳐 문제는 여전히 진행형 아닌가. 업계의 단순 땜질 처방을 통한 유지보수를 벗어나지 못하는 형국을 보면 더 이상 설명이 필요 없을 것이다. 인터넷은 탄생시키는 데 들어 간 돈은 3년간 불과 10억원. 지금으로 환산하면 500억원 이하 수준이다. 국내 정치권에서 수조 원을 허투루 소모하는 것을 감안하면 무척 대조적이다. 개혁이 더딘 것은 생각이 짧은 탓이지 예산 규모 문제가 결코 아닌 것이다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
정보 시스템 결함에도 불구하고 정부가 무리하게 개통했다는 감사원 결과가 최근 나왔다(아주경제 2024년 7월 30일). 보건복지부 사회복지행정시스템 이야기다. 그로 인해 1900억원을 소요한 시스템이 실패했다. 줄곧 말썽을 부려온 행정망과 무관할 수도 있지만 정부 부처 시스템이라는 점에서는 시스템 설계 및 개발 접근 방법론에서 결코 무관하지 않은 일이다. 왜 이런 일이 자꾸 반복되는 것일까. 이율배반적이지만 2024년 1월 30일자에 나온 디지털 정부 평가에서 한국이 세계 1위를 차지했다. 디지털 하면 다름아닌 정보화의 동음이의어인데 지난 행정망 먹통 사태를 본 시민 입장에서 보면 앞뒤가 전혀 맞지 않는다는 의견을 갖는 이들이 주위에 많다. 이런 모순에 대해 행안부 평가 기준이 다르기 때문이라고 설명한다(조선일보 2024년 1월 31일자 제8면). 그렇다. OECD 5개 평가항목이 정부나 지자체가 자체 보유하고 있는 정보를 얼마나 대외적으로 시민들과 공유할 개방 의지가 있는가 보는 것 위주다. 데이터공개 평가항목 등이 그 예다. 이렇듯 국제기구에서는 정보공개 개방성에 초점을 둔다. 개방 의지에 대해서는 한국은 앞서 있지만 정부의 데이터 대 시민 데이터 서비스를 보는 학계의 시각은 다르다. 데이터의 품질에 더 관심을 둔다. 그것이 데이터의 진가를 나타내는 정량적 지표인 까닭이다. 이런 품질 요인을 고려하지 않은 것이 국제기구 평가의 한계다. 데이터의 품질은 데이터의 군살 빼기에서 시작한다. 필요 없는 것들은 완전 제거함으로써 데이터 비만도를 낮추는 것이 시스템의 질과 속도를 개선해주는 핵심이라는 점은 학계 정설이다. 마치 인체 비만도를 낮추는 것과 같이. 그러나 현장에서는 필요가 있든 없든 중복을 무분별하게 허용하는 게 관행처럼 돼있다. 학계에서 중시하는 불필요 데이터의 비율, 즉 데이터 중복률 수치까지 고려한다면 다른 평가 순위가 나올 가능성이 있다. 따라서 OECD 발표에 자족하지 말고 정부는 물론 업계는 부단히 데이터 품질 개선 노력을 펼쳐 나가야 할 것이다. 그게 데이터 품질을 특별히 강조하는 클라우드 시대에 맞는 자세다. 통합 데이터 설계도면(이하 데이터 맵)을 따로 유지 보수하지 않는 정부 및 업계 관행도 문제 중 하나다. 데이터와 코딩은 본래 물과 기름 격으로 다른 것임에도 불구하고 둘을 임의로 섞어 시스템을 구축하는 관행은 더 큰 문제다. 건물로 말하면 건축설계 청사진에 해당하는 것이 데이터고 시공에 해당하는 것이 코딩이다. 그런데 통합되지 않고 분산 단절된 시스템에 내재된 문제는 데이터맵이 따로 없고 맵 자체가 코딩 속에 섞여 혼재한 모습이라는 점이다. 분명한 데이터맵이 없다는 이야기는 데이터 설계조차 원론적으로 안 한 채 바로 시공에 들어갔다는 말이다. 따라서 시스템 튜닝을 하는 과정에서 코딩을 건드리면 본의 아니게 데이터 설계 부분까지도 건드리게 되는 화를 불러일으켜 데이터 오류를 유발할 수 있는 것이다. 실제로 이런 류의 잘못이 교육행정정보시스템에서 발생한 중대 오류, 즉 시험지 데이터를 검색했더니 엉뚱하게도 다른 학교 답안지 데이터를 출력하는 어처구니없는 경우가 발생했다. 행정망에서도 민원서류를 요청했더니 요청하지도 않은 다른 서류까지 출력됐다는 보도(전자신문)는 이런 류의 동종사고다. 만일 그런 식으로 오작동한 것이 사실이라면 문제 발생 과정 역추적 노력이 필요하다. 따라서 행정망 먹통 사태의 가장 유력한 단서는 첫째 바로 시스템 발주 컨트롤 타워 없이 분절된 시스템 개발 관행과 둘째 데이터맵 없이 성급하게 바로 코딩해버리고 마는 고질적 행태에서 유래했을 가능성이 유력하다. 2024년 1월 31일자에 나온 정부 디지털행정 장애 방지대책을 봐도 문제의 근원을 벗어난 지엽적인 것들 위주다. 데이터 품질에 대한 언급은 한마디도 없다. 그 대책의 요지는 이렇다. 앞으로 행안부 국가정보자원관리원(이하 국자원)이 중심이 되어 위험 징후 조기 판단과 시스템 안전성 진단 지원을 하겠다는 것이다. 그러나 이것은 국자원이 이미 해 오던 일이 아닌가. 대책에 따르면 시스템 유지보수 체계를 개편하고 소프트웨어 구축에 대기업 참여를 허용하겠다고 하나 이런 것만으로는 별로 달라지기를 기대하기 곤란하다. 왜 그런가. 행정망 먹통 사태의 원인에 대한 해석이 행안부 측과 학계 측이 판이하게 다르기 때문이다. 학계에서는 분절된 시스템을 문제의 고질적 근원으로 지적한다. 실국별로 발주된 시스템이 국자원 산하에 한두 개도 아니고 정부 발표에 의하면 무려 1만9000여 개(연합뉴스 2024년 4월 1일자)에 달할 정도로 방대하게 분산된 규모다. 한두 개가 아니란 말의 뜻은 1만9000여 개가 아니라 단지 한두 개만 나오게끔 애초부터 시스템을 대통합해 나갔어야 한다는 뜻이다. 시스템 발주 컨트롤 타워가 딴 곳 아닌 국자원일진대 이런 중차대한 의미를 갖는 일을 수행해야 할 것이다. 다른 부차적인 일보다도. 정부의 해법 중의 하나는 그간 금지돼왔던 대기업 참여를 전격 허용한다는 내용도 나온다. 그러나 대기업이 참여해도 크게 달라질 가능성이 없다. 다음 세 가지 관점에서다. 첫째 상기한 사회복지행정시스템에서 드러났듯이 대기업이 개발을 주도했음에도 시스템 먹통사태는 심각했다. 개통 당일에만 오류가 무려 10만건에 달했다. 서너건이라할지라도 많은 편인데 상상조차 힘든 일이 벌어졌다. 그 대기업은 문제해결을 위해 그후 많은 노력을 해왔으나 6개월이 지난 뒤에도 문제 해결 기미가 보이지 않았다. 정부의 압박이 강도 높은 상황에서 그 기업은 결국 사업 전체 포기를 선언하며 완전 철수했다. 이런 경우에 기업 프로젝트 개발팀은 책임 때문에 풍비박산 나는 게 보통이다. 그만 한 고급인력을 다시금 충원하기는 힘든 상황에서도 팀원 전체 보통 일괄 퇴사 조치 당한다. 프로젝트 규모는 1900억원 수준이었다. 보통 금융업계나 통신업계에서는 그 규모가 더 크다. 1조원 수준이다. 그러니 대기업 입장에서는 국가 사업에 이윤보고 들어가지 않는다는 뜻이다. 그렇다면 정부로서는 대기업 참여를 대폭 기대하기는 어려울 전망이다. 둘째 이번 행정망 오류도 그렇지만 대부분의 사고는 유지보수 과정에서 발생한다. 그런데 대기업이 개발을 주도할지라도 유지보수는 어차피 중소기업 몫이 될 가능성이 크다. 시스템 안정화를 위해 대기업 측에 유지보수를 2~3년간 강제한다고 해도 수익구조 상 결국 유지보수는 중소기업 손으로 넘어갈 수밖에 없다. 셋째 먹통사태의 주요 원인이 실상은 데이터와 코딩이 섞여 터지는 성격의 것들이라 이런 관행이 기업 규모에 무관하게 팽배해 있는 한 대기업이 참여해도 데이터 설계 품질 개선에 별 도움이 안될 것이라는 점이다. 따라서 앞으로는 시스템 개발이나 유지보수 시에도 참여 기업 규모보다는 데이터와 코딩을 절대로 섞지 않도록 강제하는 규정이 무엇보다 시급하다. 유지보수 체계를 개선하겠다는 국자원의 의지는 인정할 만하다. 그러나 유지보수도 이렇듯 데이터 통합 관점에서 접근하지 않고는 성공하기 힘들다. 따라서 국자원이 컨트롤 타워 역할에 충실하려면 다음 세 가지가 필수다. 첫째 앞으로는 발주 창구를 단일화하고 실국별 시스템 분절 발주를 근절해야 하며 창구는 국자원이 되어야 한다. 둘째 발주 창구 단일화에 그치지 말고 유지보수 창구 역시 단일화해야 하며 그 창구도 국자원이 직접 맡아야 한다. 셋째 금융권의 사례를 보면 시스템은 통상 이원화되어 단 두개의 시스템으로 통합되어 돌아간다. 국자원 산하에 흩어져있는 1만9000여 개의 시스템을 이처럼 단 두개로 줄여 가볍게 만들어야 한다. 부처간 데이터 중복이 존재하는데 이걸 제거해야 하기 때문이다. 교통 지도로 말하자면 전국도로교통지도를 한눈에 볼 수 있도록 만들어야 한다는 뜻이다. 큰 국가데이터지도 하나를 만든다고 생각하면 된다. 국가지도를 하나 만들어 놓고 부처별로 업무는 겹치지 않을 것이므로 국가지도 기반 프로그램은 부처별 및 지자체별로 제작하면 된다. 이를 위해서는 시스템 대통합이 필요하며 통합하는 방법론도 알아야 한다. 이런 통합은 해 본 경험이 없는 경우 엄두가 나지 않을 수 있다. 그러나 과거 성공사례들을 살펴보면 산발 분절된 시스템도 1년 넘지 않는 단기간 내에 단 하나로 통합 가능하다는 사례가 증명돼 있다. 기재부 금융정보분석원 시스템과 산업부 특허청 시스템이 그런 사례다. 행안부에서는 그런 사례를 참고해야 할 것이다. 시스템 통합에는 방법론이 엄연히 있다. 그런 세부적 방법론을 상기 모범사례는 물론 대구시 행정데이터통합 사례에서도 확인 가능하다. 국자원이 국가 데이터 인프라 설계 컨트롤 타워 역할을 하고자 한다면 이런 데이터 통합 문제를 확실히 다룰 데이터 전문가를 확보하고 있는지에 대해서도 자문해봐야 한다. 국가 정보 자원을 관리한다는 말 자체가 원래부터 잘못 제정된 것이기도 하다. 국가 데이터 자원이지 정보 자원이 아니기 때문이다. 정보는 그의 원료인 데이터를 가공하여 만들어지는 것이다. 데이터를 제2의 원유라고 부르듯이 정보 이전의 데이터가 진정한 자원인 까닭이다. CIA는 그 조직 역할을 잘 드러내듯이 중앙첩보국이다. 모든 첩보가 중앙에 집결된다는 의미다. 잘 지어진 이름이다. 우리나라 국가정보원도 따라서 국가첩보원으로 이름이 지어져야 어울린다. 이름의 적격성을 지적하는 이유는 어느 조직이든 본연의 역할에 충실한 임무를 수행해야지 다른 엉뚱한 임무를 수행하면 아니 된다는 뜻이다. 국가정보 관리라고 하면 국가데이터를 정작 관리해주는 곳이 국가 조직 상으로 다른 어느 곳에 별도로 있어야 한다는 뜻과 같아진다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
디지털 기술은 지문보다도 더 강한 흔적을 남긴다. 개인 동선 취향 등 동태 파악에 중요한 단서를 누구의 먹잇감이 될는지도 모른 채 즉각 남기고 다니는 까닭이다. 그것도 영구적으로. 이 특성이 부인불가성을 가능케 해준다. 증거가 어딘가 남아 있기 때문에 훗날 결코 부정할 방법이 없다는 뜻이다. 따라서 영화 ‘태양은 가득히’에서와 같은 완전 범죄가 통하지 않는다. 디지털 포렌식으로 못 잡아내는 건 없다고 보면 된다. 사회에서 부정 부패를 없애 사회를 정화시키는 데 있어서는 디지털 순기능으로 작용한다. 블록체인 기술을 도입하면 투명성을 한층 더 증대시킬 수 있으나 블록체인이란 단어를 듣는 순간 왠지 모르게 가상화폐를 먼저 떠올리게 되면서 부정적 선입관이 작용하여 그런 좋은 기술을 일상 속에 받아들일 준비도 안 돼있는 편이다. 지자체들마다 앞다투다시피 하면서 현금 없는 버스 서비스를 디지털 전환 사례로 소개하면서 시범 서비스에 들어가 일부 시민들의 큰 반발을 사고 있다. 그러나 디지털 기술이란 사회 속에서 부정부패의 고리가 조성될 기미를 선제 차단하여 국가와 사회에 기여하는 바가 중대하며 거기엔 어느 누구의 반발도 있을 리 없다. 그러므로 공공 정책개발과 결정에는 그런 중대한 부분들을 발굴해내는 선제 노력이 필요하다. 좋은 후보의 하나가 가상화폐 코인 시장 쪽이다. 작년 이맘때 코인이 개입된 자금세탁 의혹을 불러일으킨 어느 공직자 사건은 별도 설명하지 않아도 누구나 알고 있을 것이다(경향신문 2024년 5월 12일자, 조선일보 5월 17일자). 우리나라 금융계 FBI 격인 금융정보분석원(FIU)에서 이상거래 색출 컴퓨터 시스템에 의해 기계적으로 자동 포착된 케이스가 그것이다. 참고로 그 시스템은 사람의 손을 거치지 않게 애초부터 설계돼 있다. 포착 후 혐의가 농후한 경우에 한해 검찰에 수사 요청하는 게 통례다. 자동 검출된 경우 10분의 1 정도가 검찰로 이관된다. 그 의원은 이 순서에 따라 검찰로 넘겨졌다. 그러나 이관 후 검찰이 지지부진한 행보를 보인 일은 불가사의 중 하나다. 또한 검찰 수사에 앞서 그 정도 규모의 사건이면 의혹 하나만으로도 당장 자신이 국민 앞에 직접 정치계 퇴장 기자회견을 자청해야만 할 일이었다. 영국과 미국에서는 그런 회견이 많다. 그러나 그 의원은 오히려 무슨 법을 어긴 게 있냐고 항변하며 의원실을 떠나 있더니 수개월 뒤 탈당에 들어갔고 최근에는 복당하는 일련의 행보를 보였다. 총선에서 야권이 승리한 까닭일까. 우리가 얼마나 정치 및 사법 후진성을 면치 못하고 있는지에 대해 더 이상 긴 설명이 필요 없는 대목이다. 바로 그 사건이 도화선이 되어 공직자 대상 가상자산거래 신고법이 여야 만장일치로 국회에서 통과되기에 이르렀다. 그런데 문제가 되는 것은 그 법에 빠져나갈 여지를 주는 허점이 한두 가지가 아니라는 점이다. 최근 몇 년간의 동태를 살펴보면 이렇다. 2024 총선 과정에서 여당 국민의힘은 가상자산에 대한 과세 시점을 가상자산기본법 시행 이후로 유예하자는 방침을 정했다. 당초 가상자산에 대한 과세는 2023년부터 시행됐어야 했지만 시스템 정비와 투자자 보호 제도 마련을 이유로 1년 미뤄졌고, 금융투자소득세 시행에 맞춘다며 더 유예돼 내년 2025년으로 연기된 상황이다. 2년 전 논의 때 국회 기획재정위원회에서도 과세 신뢰도와 형평성을 고려해야 한다면서 투기성 자금을 막고 투자위험을 줄이기 위해 조속한 과세가 필요하다고 밝혔으나 아직껏 그대로 지켜진 것은 하나도 없었다. 이렇듯 우리의 뒷북치기는 상상을 초월한다. 가상화폐 거래 규모가 큰 국회의원의 코인 거래 액수가 단기간에 1000억원이 넘을 정도로 추산됐음에도 불구하고 결국은 그대로 용인된 채 넘어갔다. 거래액수 차이가 있긴 하지만 역시 불법으로 코인 거래한 의원이 무려 12명이나 된다. 그들도 물론 현재 모두 면죄부를 받은 상태다. 놀라운 일이 아닐 수 없다. 영·미에서는 불가능한 이런 범죄행위가 어떻게 한국에서는 가능했을까. 단적으로 2018년 비트코인 광풍이 불 때 선진국처럼 그 당시 시차 없이 바로 입법 제정하지 않은 탓이다. 코인 광풍과 발맞춰 가상자산공직자신고법과 가상자산이용자보호법을 제정한 나라는 영·미뿐이 아니다. 일본과 싱가포르도 있다. 그들은 디지털 기술에 대한 이해가 앞서 그런 기술들을 입법에 적극 활용하여 완벽한 법을 갖추는 데 성공했다. 우리도 지체없이 전방위적으로 선제 입법을 통해 잠재적 부정 거래행위를 차단했더라면 소위 김치코인이라는 로컬 코인이 무분별하게 난립하는 일조차 없었을 것이다. 또한 국내거래소가 전 세계에서 코인가격 조작 독무대로 불명예 낙인이 찍히는 일도 없었을 것이다. 우리의 경우는 가상자산신고법 자체가 2022년 1월 이후 코인 거래에 대해서만 당국에 신고하게 돼있어 그 시점 이전 거래에 대해서는 실질적으로 눈감아주는 꼴이 된 게 가장 큰 한계다. 자금 세탁 의혹 당사자인 국회의원의 경우 대부분의 코인거래를 2021년과 그 이전에 종료한 것으로 드러나 그 의원을 포함한 다수 공직자의 과거 코인거래를 사실상 소급하여 묵인해준 결과가 됐다. 그런 법을 뒤늦게 도대체 뭣하러 만들었냐는 말이 그래서 나오는 것이다. 이 정도면 오히려 공직자 면죄부법이라고 불러야 마땅할 것이다. 이미 해외 검은 코인 세력의 놀이터로 변모한 국내 가상화폐거래소에서 코인 거래가 이루어질 때 가장 큰 손해를 볼 투자자는 작은 손, 즉 소위 개미들이 될 수 있다. 이런 가상자산 이용자를 보호하기 위한 가상자산이용자보호법도 역시 국회를 통과했지만 내년 7월에나 가서야 시행될 예정이라 코인 투기꾼들로 하여금 가상자산법 시행 전 제도의 시간상 공백을 노려 충분히 한탕 할 수 있는 여지를 주고 있다. 가상자산법의 또 다른 허점은 국내거래소와 해외거래소 간 코인 전송을 막을 방법이 실질적으로 없어 국내 시세 조작 세력이 해외 시세 조작 세력과 결탁하는 날에는 개미들의 피해가 눈덩이처럼 커질 수 있다는 것이다. 한탕 시나리오를 가능하게 해주는 허점은 군데군데 박혀 있다. 그런 교묘한 내막은 이렇다. 시세조작 세력이 코인 계정 몇 개만 가지고도 자기들끼리 코인을 사고파는 자전거래를 발생시켜 코인 가격 요동을 야기한 다음 가격 상승 틈을 타 코인 물량을 털어내면 코인 가격을 상당 수준으로 폭락시킬 수 있다. 이 다음 가격 최저점에서 싼값에 재매수한 다음 해외거래소로 전송하면 해외 현지에서 코인 가격 조작을 거쳐 다시 국내거래소로 코인 유입이 가능해진다. 그후 국내거래소에서는 또다시 검은 세력끼리 자전거래를 통해 다시 가격 급등에 이어 급락, 재매수, 해외거래소로 다시 전송할 수 있는 악성 사이클이 드디어 완성된다. 이런 사이클이 계획적으로 무한 반복해서 벌어지더라도 코인거래소나 코인 거래 감독 당국 입장에서 할 수 있는 일은 아무것도 없다. 고작해야 소수 계정에 의한 거래 집중과 이상 급등만 관망할 뿐 실제로 제동을 걸 방법과 권한이 전혀 없다. 더구나 해외 거래소에서 국내 거래소로 코인을 옮기는 데에는 상당한 시차가 존재하기 때문에 시세를 조작하는 시간 동안은 코인거래 감독당국이나 제3자에 의해 간섭 받을 확률도 낮아진다. 요약하면 모두가 선제 대응 안 했기 때문에 빚어지는 참사다. 이런 시세조작 검은 내막을 훤히 꿰뚫어 보는 이가 과연 몇이나 될까. 따라서 국민의 대표답게 머리 좋다는 국회의원들이 왜 선제 대응 안 했는지에 대해서도 의심 가는 정황이 사실 한두 가지가 아니다. 또 다른 디지털 기술 외곽지대 대표 중의 하나가 대선이나 총선 투표의 경우다. 우리나라의 투표 광경을 보면 투표 방식의 획일화가 두드러진 특징이다. 다양한 투표 방식을 허용하는 선진국과 매우 대조적인 부분이다. 우리는 투표 시 거동이 불편한 유권자에게 대해서도 반드시 투표장에 가지 않으면 투표권을 행사할 수 없게 돼있지만 선진국에서는 그렇지 않다. 배려의 차원이 다르다. 국내거주자라 할지라도 거동 불편자에 대해서도 마치 해외 주둔 군 인력 수준급에 해당하는 처우를 적용한다, 원격 우편 투표는 물론 이메일 투표까지도 허용하고 있다. 만일 우리나라에서 그런 식으로 한다면 과연 어떤 반응이 나올까. 그건 시기상조라 말도 안된다는 반응이 대부분이라면 한국 사회 투표 관행이 획일적인 사회주의 체제 국가 관행과 과연 어디서 어떻게 다르다는 것인지 곰곰이 생각해 볼만한 대목이다. 보안을 위해 이메일 투표에서 블록체인 기술을 적용하여 투표 신뢰도를 기하는 방법도 선진국 투표의 특징이다. 디지털 기술을 선택지 확대를 위해 적극적으로 활용하는 경우에 해당하는 것으로서 우리같이 현금 없는 버스 식으로 선택 폭을 축소화하는 방향과는 근본적으로 철학이 다른 것이다. 유권자가 됐든 탑승자가 됐든 우리가 결정적으로 부족한 부분은 디지털 기술과 관련된 배려 정신이다. 전자는 디지털 기술 활용의 사각지대, 후자는 역으로 디지털기술 남용의 사각지대에 해당한다. 우리가 선진국 따라가기도 바쁜데 생각의 속도와 유연성에서 차이가 난다면 선진국과의 거리는 그만큼 더 멀리 벌어지는 것 아닐까. 총선 결과 국회의원의 대다수가 법조인으로 채워졌다. 판사 검사 변호사 출신이 무려 61명에 달한다. 디지털 트렌드에 조예가 있는 이는 소수일 것이다. 정보기술 IT 전문가도 총선 결과 모두 7명에 불과하여 법조인 수의 10분 1 수준밖에 되지 않는다. 이래서는 입법을 주도하는 국회가 급변하는 IT 기술을 이해할 방법이 없고 따라서 영·미처럼 선제 대응할 방도도 없다. IT 전문가를 국회의원으로 적어도 30명 정도는 보유하고 있어야 뒷북치는 입법활동을 겨우 막을 수 있을 것이다. 향후에는 이에 대해 여야가 같은 생각을 갖고 특히 비례대표 인선에 임하지 않고는 전방위적 입법을 펼치는 선진국의 의정 철학을 따라가기 불가능할 것이다. 지금 같은 위성정당식 비례대표로는 어림도 없다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
의료 개혁을 놓고 정부와 의료계가 첨예하게 대립되어 있다. 미래 중대사이기 때문일 것이나 국민들 입장에서는 왜 그리 지루하게 진행되는지 답답하다. 그렇다면 디지털 시대에 그보다 중요한 것임에도 불구하고 아무렇지도 않은 듯 그냥 지나치는 것은 없을까. 국가 미래를 위해 필요하나 방법을 몰라 손쉽게 고치지 못했던 것 말이다. 민원 서류가 대표적인 것 중 하나다. 민원서류공화국이라고 불러도 무방할 정도로 민원서류가 많은 까닭이다. 말썽거리인 행정망은 민원서류망이라고 불러도 될 정도로 민원서류가 넘친다. 민원서류, 그 말을 풀어보면 민이 원하는 서류라는 뜻이다. 그러면 도대체 왜 민이 무슨 이유로 서류를 원할까. 서류제출 요구 기관 때문이다. 세무서 병무청 등 다양하다. 사실 필요하다고 하는 서류의 그 내용을 자세히 들여다보면 관공서에서 자체적으로 다 확보 가능한 정보들이다. 그래서 다른 나라에서는 제출절차 없이 관에서 필요로 하면 직접 만들어 쓴다. 민이 서류를 뗄 일이 생략되니 민원서류라는 용어도 존재하지 않는다. 그런데 우리는 왜 그걸 달고 살아야 하나. 일상에서 늘 쓰는 주민번호 때문이다. 본인 아닌 다른 사람이 사용해서는 안되는 개인정보법 규정으로 남이 번호를 알더라도 사용은 금지돼 있다. 여기서 남이란 관도 포함된다. 즉 관공서에서는 그 번호 하나 때문에 직접 서류를 만들어 쓸 수 없게 돼 있는 구조다. 그래서 민이 직접 떼서 관에게 제출하도록 강제한다. 제출하면 형식적으로 민이 관에게 주민번호 사용을 위임한 모양새가 되므로 그때부터는 관이 그 번호를 사용하겠다는 뜻이다. 이렇게 어처구니없게도 번호의 사용 권리가 어느 쪽에 있는가라는 형식 따위에 치우치다 보니 민원서류란 단어가 설 자리가 존재하는 것이다. 개인정보법은 법 체계 상 매우 상위법이다. 결국 주민번호가 우리 사회 발목을 단단히 잡고 있는 것이다. 다른 나라에서 민원서류라는 말 자체가 존재하지 않으므로 서류를 떼 주는 곳도 없다. 그 이유는 무얼까. 결론부터 말하면 주민번호가 있더라도 일상 생활 속에서는 전혀 사용하질 않기 때문이다. 그들의 운전면허증에는 운전면허 번호만 있지 주민번호는 전혀 기입돼 있지 않다. 여권에도 여권 번호만 들어간다. 은행에서도 고객 식별시 은행 고객번호를 쓰므로 주민번호를 요구하지 않는다. 은행만이 아니다. 다른 곳 어디에서도 주민증을 요구하지 않는다. 따라서 외출시 지참할 필요가 없다. 그들은 이런 식으로 산다. 주민번호는 사실상 전시같이 국가 존폐가 엇갈리는 위기 상황에서나 사용 가능한 것이다. 영국 독일 이탈리아 일본이 과거 2차대전 시에 일시적으로 썼다가 폐기 처분해 버린 사례가 그렇다. 그래서 그런 번호를 군번이라고 봐야 하는 근거가 되기도 한다. 일본이 최근 주민번호를 다시 도입하려다 언론의 반감을 사 심각하게 검토하고 있는 중이다(일본경제신문 2023년 7월 28일자). 다른 나라에서는 성명과 주소를 주요 식별 방법으로 사용한다. 급하면 여권번호를 쓴다. 그건 주민번호와 달리 언제나 변경 가능한 번호다. 미국의 사회보장번호도 그렇기 때문에 우리의 주민번호와는 완전히 다른 것이다. 그게 같은 것 아니냐고 혼동하는 사람들이 많은데 주민번호를 합리화하기 위해 잘못 생각하는 것이다. 이쯤이면 혹자는 반론을 제기할 것이다. 우리 정부도 민원서류를 점진적으로 없애려고 노력하고 있다고 말이다. 그러나 주민번호를 일상에서 밥먹듯 쓰는 한, 여기저기 상위법에 치여 그게 쉽게 추진될 리 없다. 점진적일 필요도 없다. 현행 민원서류 전체를 선진국처럼 일거에 없애려고 한다면 주민번호를 안 쓰면 간단히 해결된다. 그렇게 한다면 새로운 세상이 펼쳐질 수 있다. 평소 무심코 지나가서 그렇지 주민번호가 일으키는 풍파는 복합적이며 가공할 만한 수준이다. 대표적 폐단 중 하나가 인증의 범람이다. 선진국에서는 인증이 있다 해도 전화 문자 인증 고작 1회면 충분하다. 그래서 쉽다. 그 이유도 일상에서 주민번호를 안 쓰는 까닭이다. 반면 우리는 여러 번 반복되는 이런저런 인증 요구로 피곤하게 만든다. 이것 역시 주민번호 때문이다. 반복되는 인증은 고도의 짜증을 유발하지만 해악은 없다. 그러나 주민번호가 해커들을 살려 먹이는 결정적 역할을 한다고 가정해보라. 그것은 국가 사회적으로 큰 해악이 아닐 수 없다. 이게 주민번호의 큰 해킹 덫이다. 온갖 해킹의 표적물이 되어 온 주민번호는 본래 도입 취지를 벗어나 이미 해커들과 자유자재로 공유하는 공공재로 변모해 버렸다. 56년 전 북한 무장병력 청와대 기습 사건으로 즉각 도입된 주민번호가 국민 편안보다는 오히려 적국을 먹여 살리는 도구로 변했으니 이 무슨 이율배반인가. 오프라인 시대에는 그 번호의 심각성을 모르고들 지냈지만 이제 온라인 시대에 들어와서 족쇄 역할을 톡톡히 하고 있다. 인터넷 시대에 주민번호는 해커들이 특히 서버관리자를 낚을 때 큰 물건 구실을 한다. 만능 키인 까닭이다. 사이버 공간 상에서 개인 동태 파악에 단초를 제공하는 그 번호를 사용하여 동선 재구성 퍼즐을 맞춰 특정인의 취향을 채집하는 것이 해커의 수법이다. 따라서 해커에게는 그 번호는 절대 반지다. 서버관리자를 주요 표적으로 삼는 이유는 한번 걸리면 조직 내 구성원들 전부 낚을 수 있기 때문이다. 그래서 작살 피싱이라고 부른다. 주민번호가 불러일으키는 국가적 재난이다. 실례로 한국수력원자력이 해킹 당한 적이 있다(조선일보 2014년 12월 24일자). 원전이 중국 경유 북한 해커에 의해 해킹 당한 사건이다. 그 다음 날 작살 피싱의 결정판이라는 전문가 분석이 나왔다(내일신문 2014년 12월 25일자). 작살 피싱의 사례는 여기서 그치지 않는다. 11년 전 청와대를 비롯하여 대형 은행 3곳과 국영 방송 등 주요 방송사 4곳이 한꺼번에 국가 초대형 재난급으로 해킹 당한 적이 있다. 당시 YTN이 긴급 생방송으로 2시간 다뤘다. 세계 주요 언론의 관심도 더해졌다(뉴욕타임스 2013년 3월 20일자). 설상가상으로 불과 3년 뒤 사상 최대 규모 해킹으로 1억건의 개인정보가 털렸다. 국민 개개인 당 수회씩 해킹 당했다는 뜻이다. 그때 대통령 주민번호도 해킹되어 대통령 자신이 국무회의에서 주민번호 폐지를 포함하여 식별 제도 재검토하라는 지시를 내렸다(주민번호 주무부처는 옛날엔 총무처였지만 지금은 행안부다). 주민번호의 폐단이 입증된 순간이었다. 그러나 총리실과 행안부에서는 산불 잘 구경했다는 듯 아무 일 없이 그냥 넘어갔다. 이를 놓고 언론이 “대통령 지시도 안먹혔던 주민번호 개편”이라는 표제로 다뤘다(CBS 라디오 시사자키 2015년 3월 14일자). 그 이후로 해킹 공화국이란 수식어가 우리나라를 묘사하는 부끄러운 단어로 등장했다. 해커들은 주로 적국에서 활동한다. 적국에서 우리나라 공공기관과 국민들을 해킹해서 매년 수조원의 돈을 손쉽게 조달한다는 이야기도 밝혀졌다. 해커에 얼마나 적나라하게 노출돼 있는지를 보여주는 대목이다. 우리가 제도를 바꿔 주민번호가 만능 키 구실 못하게 만드는 순간 해커들은 설 땅이 없다. 한국에 대한 집요한 공작도 포기할 것이다. 총선이 끝나고 생각해본다. 뇌물공방 사망사건 소통부재 의대증원 갈등이 부각돼 치러진 선거다. 이들도 중요한 사안이지만 국가 대계를 위해 여야 공히 놓치고 있는 부분이 있다. 민원서류가 없어진다고 한번 가정해보라. 서류 떼느라 한 사람도 예외 없이 전 국민이 여기저기 분주히 애쓰며 돌아다니는 노력을 생각해보라. 그게 과연 국가를 위해 생산적인 일인가. 만일 그런 에너지를 생산성 높이는 다른 곳에다 쓴다면 국가적으로 얼마나 이득이 크겠는가. 이 글을 읽는 독자들은 주민번호와 인증, 그리고 해킹이 한 몸처럼 붙어 다니는 존재라는 것에 대해 어느 정도 이해했을 것이다. 서로 물고 물리는 관계, 즉 긴밀하게 밀착되어 있는 악성 3위 일체다. 민원서류공화국 인증공화국이라는 오명과 해킹공화국이라는 치욕을 어떻게 씻을 것인지 국가는 근본 대책을 제시해야 한다. 최근에도 대법원을 비롯한 법원이 북한에 의해 6년 이상에 걸쳐 지속적으로 해킹 당한 것이 드러났을 정도로 심각하다(아주경제 2024년 5월 11일자). 모바일 건강보험증이 본인확인용으로는 사용되기 힘들 것이라는 기가 막힌 분석이 나왔다(SBS 2024년 5월 18일자). 취재 기자 분석에 의해 보험증 도용도 충분히 가능한 것으로 드러난 다음이다. 그 저변에도 다름아닌 주민번호가 작용하고 있다. 병원 갈 때 모바일 앱 대신 주민증을 필히 지참하라는 정부측 홍보는 이래서 나온 것이다. 정부가 모바일 보험증 도용 문제를 없애겠다고 했으나 그 해법을 보면 또 주민번호가 사용된다. 휴대전화 본인 인증절차를 또 한번 추가하겠다고 한다. 주민번호 써서 말이다. 단연 인증공화국이다. 모순이 또 다른 모순을 연쇄적으로 낳는다는 말은 바로 이런 걸 가리키는 것이다. 모두 불감증에 걸린 탓일까. 눈을 바다 건너로 돌려보라. 다른 나라에선 주민번호 사용 않는 다른 현명한 방법으로서 어디에 사는 누구라고 하면, 즉 주소증명만 제출하면 병원 가서도 다 통하는 사회를 만들어 놓았다. 예를 들면 영국은 주소증명 하나로 전국 어느 병원이든 이용할 수 있게 되어 있다. 여권번호 같은 개인식별번호를 제시하지 않아도 전혀 문제없이 다 통한다. 인간을 물건이나 짐승처럼 번호로써 식별하는 방법이 우선시돼서는 안된다는 철학을 여전히 견지하고 있다. 21세기 디지털 시대를 올바르게 대비하려면 다른 사안도 중요하겠지만 민원서류부터 없애는 방향으로 사회를 개혁해야 한다. 이런 기조는 의료 연금 개혁 못지않게 중요한 일이다. 그래야 전 세계에 유일한 국가 3대 오명도 매듭 풀리듯 순차적으로 해소될 수 있기 때문이다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
AI 기술의 등장으로 긴장하는 이들이 많다. 예를 들면 직장에서 다른 이가 아닌 바로 내가 하는 일을 AI가 대체하는 날에는 내 자리가 위협받을 것 아닌가 하는 두려움 같은 것이다. 그런데 AI가 영상 분석처럼 또는 이미 나와 있는 숫자를 기반으로 한 업무, 즉 회계 분석에서는 역할을 할 가능성은 제법 크지만 기업 업무의 기타 부문에서는 역할을 하기 힘들다. 즉 고객 응대 업무, 민원 처리 업무, 생산 업무, 매출 매입 등 영업 업무라든가 마케팅, 기획 전략 분야에서는 기존 회사 내 데이터가 AI에게 유용하게 사용되기에는 부적합하기 때문에 AI를 도입해 쓴들 효험을 보기는 어렵다. 부적격 이유는 데이터 품질 수준이 조악한 탓이다. 설마 우리는 그렇지 않겠지 하고 생각할 수도 있으나 실은 데이터 품질 면에서 합격권에 들 회사는 거의 없다고 봐야 한다. 전국 대규모 행정전산망 먹통 사태도 결국은 데이터 품질 문제로 야기됐다고 보는 게 전문가들의 견해다. 정부측에서는 그걸 인정하지 않은 채 하드웨어 쪽 문제로 종결 지은 바 있지만 정부 발표를 액면 그대로 받아들이는 국민들조차 몇 안된다. 공공 부문 데이터 품질 저하 문제는 어제 오늘 일이 아니다. 전문가 평가에 의하면 공공 데이터 전체의 절반이나 쓸모없는, 즉 쓸데없는 것으로 판명됐을 정도다. 그런 현실을 애써 외면하는 정부가 품질 개선을 오히려 저해하는 역할을 하고 있는 것은 아닐까. AI의 위용에 감탄사를 연발하는 일은 그런 수준급 품질 좋은 데이터가 AI의 먹이가 됐을 경우에 국한된다. 사실상 쓸모있는 데이터들은 지금도 AI가 거의 다 채집하여 갖다 쓰고 있다. 현재 AI가 가져다 쓰는 데이터의 무려 절반이나 오프라인 신문 기사라는 점도 밝혀졌다 (워싱턴 포스트 2023 4월 19일자). 왜 그럴까. 지면 신문은 문법에 맞는 완벽한 문장을 구사하는 까닭에 데이터 품질 면에서 합격권이기 때문이다. 기사 출고 전 수없이 거치는 치열한 교정 작업 과정을 생각해보라. 언론 매체들이 주장하는 기사 저작권 문제가 1년이 넘도록 해결 기미를 보이지 않자 세계 유수 언론 매체들이 지난달 오픈AI 사를 법정 고소하기에 이르렀다(뉴욕 타임스 2024년 4월 20일자). 그러나 직장 내 문서는 문장을 정교하게 다듬지 못한 채 늘 급하게 만들어진다. 그러나 다른 분야에서는 시간 탓과 더불어 소위 ‘왕따’ 당하기 쉬운 관행 탓으로 그게 지켜지기 매우 힘들다. 따라서 양질의 문서로서는 거의 모두 결격이다. 그런 조악한 상태로 조직 내외부로 유통되는 바람에 품질 저하가 연쇄적으로 이리저리 전파되는 악순환의 고리를 낳는다. 특히 국내에서는 국문법을 자의적으로 구사하는 문장들이 조직 문서 내에 즐비하게 내재돼 있어 그걸 정제과정 없이 있는 그대로 AI 학습 대상을 삼았다간 환각현상이 심각하게 나타날 수밖에 없다. 인체에 비유하면 마치 체지방률처럼 데이터 비만도가 너무 높아 데이터를 섭취하며 돌아가는 기업 정보시스템이 언제 돌연 쓰러질지 모를 정도다. 국가 시스템들이 아슬아슬 위태롭게 돌아가고 있다는 방증이다. 현행 데이터 비만도는 무려 65%에 달한다. 그걸 15% 선으로 대폭 낮추기 전에는 행망 마비 사태 같은 종류의 사건사고는 또다시 불쑥 터지게 되어 있다고 해도 과언이 아니다. 기계는 65%에서 단 1%도 줄여주지 못한다. 비만도를 줄여 데이터품질을 개선하는 것은 인간 고유의 권한이자 영역이다. 따라서 정부나 지자체 등 공공 부문에서 먼저 데이터 품질 개선을 위한 노력을 하지 않는 한 AI는 써봤자 아무 소용이 없다. 구체적으로 어떤 노력이 필요할까. 조직 내 문서의 표현 방식을 날 잡아 벌레 잡듯이 완벽히 국문법에 맞도록 고치는 과정, 즉 데이터 적법화 정제를 해야 한다. AI 환각 결과를 일부 계층이 의도적으로 부적절하게 사회양극화 수단으로 활용할 개연성도 충분히 존재한다. 약자를 보호하여 사회양극화를 줄여 주는 방향으로 나가게 하려면 다른 분야는 차치하고라도 복지 쪽 데이터만큼은 적법하게 정제하고 난 다음에 AI 기술을 적용해야 한다. 안전 쪽도 마찬가지다. 안전 데이터만큼은 데이터 품질 면에서 잘 다듬어야 응급환자 뺑뺑이 사태, ‘제2의 세월호 사태’ 또는 국가사회복지망 마비 사태 재발을 막을 수 있다. 품질을 외면하면 또 다른 대형 사고는 앞으로도 예고되어 있는 것이나 다름없다. 이런 가운데 AI에 의한 여론조작이 이미 매우 심각한 상황에 이르고 있다는 점은 경종을 울려준다. 관행이 고쳐지지 않는 이유는 냄비 근성 탓이다. 미국 대선에서 터졌던 2018년의 케임브리지 애널리티카 스캔들 사건은 8700만명의 개인정보가 활용돼 수많은 유권자들의 여론 향방을 의도적으로 조작한 희대의 사건이다. 이런 유형의 사건사고는 우리나라뿐만 아니라 어느 나라에서나 있었고 또 현재 진행형이다. 그런데도 늘 산불 구경하듯이 그냥 일시적 현상으로 곧 지나쳐 버리기 일쑤다. 지금도 그렇다. 우리 뇌리를 잠시 스쳐 지나갈 뿐 확고한 해법을 외면한 채 그냥 넘어가고 있다. 따라서 여론조작 가능성을 어떻게 근원적으로 차단할 수 있겠는지부터 접근해야 한다. 해법은 단순하다. 모든 뉴스와 의견의 원천지에 대해 블록체인 처리하면 쉽게 차단할 수 있다. 뉴스원에 대한 추적과 유통과정의 투명성 및 부인불가성이 보장되기 때문이다. 역추적 가능해야 가짜 뉴스가 완벽하게 근절된다. 이 해법의 정확성과 신뢰성에 대해서는 기술적으로 누구도 의심의 여지를 달 수 없지만 블록체인 기술 적용에 대해 거부감을 갖는 특정 집단이 존재한다. 바로 정치권 자신이다. 여야의 입장이 특히 선거를 앞두고 첨예하게 대립되기 때문이다. 여야가 선거 결과 후 입장이 역전되는 날에는 없던 일로, 언제 그랬냐는 듯 아무 문제 삼지 않고 그냥 넘어가기 일쑤다. 이율배반적이다. AI 알고리즘에 의해 여론이 더욱 편향되고 양극화, 극단화된다는 비판도 많다. 이 문제도 데이터 품질 각도에서 접근하면 해법이 보인다. 품질면에서 적법하게 리모델링하는 작업 과정을 거치지 않고는 극단화를 막기 힘들다. 그러므로 데이터 리모델링 또한 신규 창출 데이터를 위한 데이터 형성 방법에 대해 전문가로부터 특별 사전 교육을 받아야 한다. 데이터는 창작물이다. 데이터도 자동차나 물건처럼 제작에 필요한 요령을 숙지해야 한다. AI 예산의 불과 10%만 갖고도 그런 데이터 제작 및 정제에 필요한 전문가 지도를 충분히 받을 수 있다. 누가 어디선가 만들어서 내게 쓰라고 거저 갖다 주는 게 데이터가 아니다. 양극화 극단화를 막기 위한 AI 사용에 대한 법적, 제도적 보완장치 역시 모색해야 한다. 그러나 더 중요한 건 법과 제도가 보완되기 위해서는 먼저 사람부터 바뀌어야 한다. 거슬릴지도 모르겠으나 말로만 데이터 시대 운운할 게 아니라 현 국회의원의 최소 10%는 데이터 전문가로 채워야 마땅하다. 지금은 그런 역량을 가진 이가 불행히도 국회에 한 명도 없다. 따라서 현 단계에서는 AI 사용에 대해 일단 규제를 하는 수밖에 별 도리가 없다. 그렇지 않고는 AI 사용으로 혈세낭비만 벌어질 게 분명하기 때문이다. 여야가 국가 미래 대계 살리기 운동의 일환으로 이런 전문가 영입에 합의하기 전에는 불가능하다. 앞서 지적한 데이터 비만도 심각성 문제도 결국 해결하려면 정부가 나서서 축소 노력을 펼쳐야 함에도 불구하고 공직사회에서는 개선을 위한 법적 제도적 근거가 없다는 핑계로 발뺌하기 급급한 실정이다. 이건 반드시 바로잡아야 할 국정 중대 사안이다. 대통령실 관심이 절대적으로 필요하다. 바로잡아진다면 입법이나 인사청문회 등에서 AI를 활용할 만한 분야가 많을 것이다. 지금이라도 당장 AI를 쓸 수 있는 분야는 위헌 충돌이나 부실 입법 같이 정제가 불필요해 보이는 쪽이다. 다른 쪽에는 품질 개선 준비과정을 면밀히 거친 후에만 효과를 볼 수 있다. 또 다른 예로 작금의 인사청문회 중 윤리 부분에 대한 것은 기계적으로 자동화 시스템 처리하여 충분히 대체 가능하다. 정작 청문회에서는 정책 질의로만 일관해도 될 것이다. 국회의원 출마자에 대해서도 범죄 전과 여부를 알고리즘으로 여과하여 전과자는 선거 입후보에서 시스템적으로 자동 제외시키는 것도 가능하다. 국정 및 의정 관련 문서 데이터의 품질이 개선된다면 AI를 써서 국회의원 수나 행정부 장·차관 수를 점차 줄여 나갈 수도 있겠다. 그러나 지금까지 정부가 데이터 품질 개선에 노력을 기울여 오지 않은 것을 보면 정치권이 자진해서 국정·의정 문서 데이터 품질 개선에 나설 가능성은 없다고 봐야 한다. 이런 구태의연한 수구(守舊) 자세는 국민들에게 결국 정치권 자신들의 자리 수성으로 비칠 수밖에 없는 것이다. 제 아무리 현란한 기술 종합 세트를 동원해본들 AI 시대에도 세상의 모든 길은 데이터 품질이라는 신작로로 통하지 않고는 세상이 종전과 별반 달라질 것은 없다. 이런 품질 개선에서 AI가 할 수 있는 일도 없다. 결국 데이터 주권을 쥐고 있는 인간의 도움 없이는 AI도 한낱 별 쓸모없는 기술일 수밖에 없다는 말이다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
융합이란 화두가 사회적이고도 학문적인 쟁점으로 떠오른 것은 꽤 오래전 일이다. 2009년부터 대학마다 각종 융합기술원이 설립되면서 융합의 기운이 감돌기 시작했다. 그러나 지금까지 융합을 해서 얻은 실효는 없었다고 봐도 과언이 아니다. 융합이 우리의 살길이라며 우리도 15년 전부터 줄기차게 외쳐왔으나 실상은 난상토론만 하다 실익을 거두지 못했다고 봐야 한다. 예를 들면 어느 두 기술을 융합했더니 자동차가 갑자기 하늘을 날기 시작했단 소리를 들어 본 적이 없기 때문이다. 단독 기술에 의한 창조적 파괴가 벽에 부딪히자 고안해낸 발상이었으나 쉬지 않았다. 그러던 사이에 4차산업혁명이란 개념이 불쑥 등장했다. 2016년 초 일이다. 1차부터 3차까지 산업혁명은 시간이 한참 지나고 난 후 나중에 붙여진 이름이다. 2차산업혁명 돌입 후 1차산업 시대란 정의가 비로소 이루어졌다는 뜻이다. 2차도 마찬가지였다. 그러나 4차는 시작부터 달랐다. 3차가 채 끝나지도 않았는데 4차를 먼저 들고 나온 것이다. 왜 그랬을까. 그 뜻을 이해하려면 융합의 핵심이 과연 무엇인지 생각해봐야 한다. 4차 개념의 중심에는 빅데이터, 블록체인, 인공지능이라는 셋이 꼭 등장한다. 사실상 그 셋은 소프트웨어(SW)라는 단어 하나로 축약 가능한 것이다. 따라서 SW가 융합의 핵심으로 등장한 것이다. 이를 증명해 준 것이 2024년 벽두에 펼쳐진 최대 정보가전 전시회 CES였다. 거기서는 인공지능으로 도배된 자동차 기술이 등장했다. 인공지능은 SW 범주에 확연히 속하는 기술임은 누구나 주지하는 사실이다. 하늘을 나는 자동차는 기계공학 분야와 SW 분야 간 융합을 통해서만 실현 가능한 것이다. 이를 CES 현장에서 보고도 융합의 위력을 실감하지 못하는 이는 없을 줄 안다. 실은 이래서 SW가 4차산업혁명의 중추라는 이야기가 8년 전부터 나왔던 것이다. 하드웨어(HW) 위주였던 3차산업 시대를 넘어 SW 중심으로 가자고 선언했던 것이다. 산업 각 분야에서는 그 단어의 의미를 자체적으로 도입하여 살려 볼 길을 모색하기 시작하는 움직임이 일어났다. 그런 시도가 먼저 나타난 곳은 제조업이다. 산업의 기초는 제조업이기 때문이다. 따라서 융합이 거기서 먼저 시도된 것은 필연이었다. 제조업에서 즉시 생산 및 오작동률 축소가 최대 관건이다. 따라서 공정 자동화가 요구된다. 이런 자동화에는 HW도 필요하지만 대부분은 SW로 해결해야 하는 난제들이 산적해 있다. SW는 원래 컴퓨터 하드웨어, 즉 컴퓨터 내 기억장치와 계산장치를 구동하기 위해 고안된 것이다. 컴맹이 아니라면 두 장치가 HW의 대표 주종이란 사실은 누구나 다 알고 있을 것이다. 그런데 두 장치의 사용 효율을 극대화하기 위해서는 두 장치를 교신 및 작동 수순을 제어하는 일이 필요한데 그런 일은 HW로 할 수 있는 게 아니라 육법전서 같은 프로토콜(법률 체계)을 정해서 해야 한다. 그 육법전서 프로토콜이 바로 SW인 것이다. SW를 그 자체로 완벽한 법학 혹은 인문학이라고 하는 근거가 여기에 있다(내일신문 2011년 10월 24일자). SW가 물리·전기·전자·소재·부품·장비 중심의 HW와는 판이한 종류라는 사실을 알 수 있는 부분이다. 전산학이 공부하기 비교적 어려운 분야라고 하는 이유는 HW와 SW를 모두 알아야 하기 때문이다. 어느 하나만 이해하는 수준에서는 컴퓨터 전체가 어떻게 돌아가는지 이해할 수 없기 때문이다. 다시 말하면 이과적 소질과 문과적 소양을 겸비하지 않고는 전산학을 전공해봤자 전체 그림을 그려 볼 수 없다는 뜻이다. 다른 학문은 대부분 이렇지 않다, 대개 이과적 소양이나 문과적 소양 하나만으로 어떻게든 견뎌낼 수 있는 것들이다. 과거 명문대 학부 법학과 출신들이 카이스트 대학원 전산학과에 입학했다가 중도 탈락한 학생들이 다수 있었다는 사실이 이를 증명해 준다. 그래서 전산학이 학문 중에서는 난도가 상당히 높은 편에 속하는 것이다. 그러나 이 대목에서 그런 탈락생이 발생한 것이 과연 옳은 일이었을까 생각해 보지 않을 수 없다. 융합을 내세운 이 시대에 과연 맞는 학과 교과과정이었던지 세심히 짚어봐야 한다는 뜻이다. 결론부터 말하면 우리나라에서만 가능한 결과였다는 점이 눈여겨볼 점이다. 영국 같으면 교과과정 구조의 유연성으로 이런 탈락 사례는 발생하기 힘들다. 반면 우리는 대학에서 유연성은 물론 확장성에서도 선진국을 따라가지 못하는 상태에 머물러 있다. 영국에는 전산학과도 있지만 ‘전산 및 전기전자과’ ‘전산 및 경영학과’ ‘전산 및 수학과’ 식으로 전산 분야를 여러 개 트랙으로 구분하여 트랙별로 학과를 운영하고 있다. 반면 한국 대학은 어느 학과장도 융합 실천에 리더십을 발휘하게 돼 있지 않은 구조로 운영된다. 학과장직을 사이 좋게 돌아가면서 맡는 책임감 부재 풍토가 문제의 근원이다. 선진국은 학과장이 모든 인사권과 재정권을 장악하는 학과장 중심제로 운영된다. 책임과 회계가 어느 선에서 이뤄지는지를 명확히 말해주는 대목이다. 우리는 학과장 권한이 없다 보니 학장 내지 총장 선으로 넘어가는데 윗선에서는 학과별 특성을 고려할 수 없는 입장이라 3~4년 임기 중 일반적인 틀 안에서 별 문제 없이 적당히 넘어가려는 태도를 취할 수밖에 없게 되는 것이다. 이래서야 조직 러더십이 살겠는가. 컴퓨터 80년 역사에 큰 족적을 남긴 이들을 보면 학계를 제외하면 산업계에서는 빈톤 서프, 빌 게이츠, 스티브 잡스, 리누스 토르발스, 팀 버너스-리 같은 5인이 있다. 전원 HW와는 무관한 SW 전문가다. 조금 생소할 수 있는 서프(미국인)는 올해 80세로 인터넷 창시자다. 버너스-리(영국인)는 올해 빌 게이츠와 같이 69세로 월드와이드웹 창시자다. 토르발스(핀란드인)는 올해 55세로 SW 오픈소스 운동 창시자다. 공통점은 모두 SW 전문가라는 사실이다. 학문 간 융합의 관점에서 볼 때 또한 최근 수능시험에서 미적분2 폐지 관점에서 볼 때 5인 중 미적분에 정통했던 이는 서프와 버너스-리 둘뿐이다. 각기 수학과와 물리학과 출신이기 때문이다. 그러나 그들은 인터넷 프로토콜과 웹을 개발할 때 미적분 실력을 발휘할 일은 없었다. 인터넷 프로토콜과 웹도 100% SW였기 때문이다. 나머지 3인 중 둘은 대학을 중퇴한 관계로 미적분과는 인연이 아예 없으며 토르발스는 전산학과 출신이지만 리눅스 운영체계를 개발할 때 미적분을 쓴 일은 한 번도 없었다. 이런 경험치를 토대로 보면 학과 내에서도 전공 트랙별로 필수과목을 다양하게 제공하는 것이 합리적이라는 발견을 할 수 있다. 예를 들면 ‘수학과’에선 미적분이 당연히 필수로 지정돼야겠지만 ‘전산 및 경영학과’에선 미적분은 필수에서 제외 가능하다. 하지만 우리는 역부족이다. 경직된 사고방식과 리더십 불명으로 트랙별 교과과정 차별화를 제대로 실천하지 못하는 상태에 머물고 있는 게 교육현장 현실이다. 전산도 대표적 이공계 전공 중 하나지만 이공계 내에서도 전자와 전산처럼 성격이 현격히 다른 분야가 존재한다는 점을 간과해서는 안 된다. 이공계 대학교수들이 미적분2를 없애면 장래에 망할 것이라는 의견은 지나친 것이다. 미적분2를 고교에서 가르치며 대학 입학시험에 포함시키는 것이 전 세계적 추세라는 일부 전문가의 의견 역시 다소 과장된 것이다. 그런 증거는 찾기 어렵다. 그동안 우리는 수능으로 인해 교육체계 개편을 수차 시도하였으나 혹시 그 모두가 결국은 미래를 세심히 내다보지 못하는 땜질 처방 수준이 아니었던가 허심탄회하게 돌이켜봐야 한다. 이런 반성이 있다면 수능 문제에 대한 절대 반지 열쇠를 제공해 줄 가능성이 있다. 결론적으로 이번 미적분2에 대한 교육정책은 맞는 방향으로 설정됐다고 평가할 수 있다. 혹시라도 미적분2 교육에 대한 미진한 부분이 있다면 대학 입학 후 필요 학과에서 바로 수강하게 하면 될 것이다. 그렇게 한다면 이공계 대학교수들이 우려하는 사태는 발생할 리 없을 것이다. 세상은 급변한다. 그래도 변하지 않는 것은 우리의 자세와 관습이다. 과거 행태를 고수하려는 자세에 대해 대문호 톨스토이는 “사람은 변하지 않는다”라는 간단한 말로 표현한 바 있다. 그는 걸작 ‘부활’에서 “사람은 흐르는 강물과 같다. 강물은 어디에 있든 언제나 같은 물이다. 다만 강은 어떤 곳은 좁고 물살이 빠르기도 하다. 사람도 마찬가지다”라고 인간 심성에 관해 행동분석학적으로 묘사한 바 있다. 흐르는 강물처럼 시류 변화에 유연하고도 민감하게 적응하라는 뜻 아닐까. 컴퓨터에서 무려 80% 몫을 차지하는 SW라는 소용돌이가 융합이라는 거대한 흐름으로 전 분야를 강타하고 있는 지금 우리는 무엇을 어떻게 얼마나 섬세하게 하고 있는지 자문해봐야 할 것이다. 나머지 불과 20%가 하드웨어 몫이다. SW 시대에 수능 미적분 문제는 이런 융합의 대세 방향에 걸맞게 새롭게 설정되어야 할 것이다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
정부가 범정부 인공지능(AI) 플랫폼을 구성하기 위한 작업에 착수했다(지디넷코리아 2024년 2월 23일자). 각급 기관별로 각기 다른 AI 적용 방안을 만든다면 중복의 우려도 있고 품질 문제도 있을 것이기 때문에 범정부적으로 일원화된 형태로 가야 한다는 것이 정부의 입장이다. 이를 보면 중복 요인 제거를 통한 단일화(통합) 필요성에 대해 정부도 이제는 어느 정도 인식하고 있는 것 같다. 하지만 품질 개선에 있어서 데이터 품질을 염두에 둔 것으로 보이지는 않는다. 최근 차세대 지방세입정보시스템 오류(전자신문 2024년 2월 24일자)가 발생했다. 보도에 의하면 이 시스템은 지자체마다 개별 관리하던 지방세 시스템을 하나로 통합하는 것이 목표였다고 한다. 세금완납증명서가 제때 발급되지 않았고 가상계좌를 통한 납부가 제대로 이뤄지지 않았다는 점을 보면 정보시스템 품질에서 실패한 사례다. 이 시스템도 통합을 추진하기는 했으나 데이터 통합까지는 가지 못했을 것으로 추정된다. 이런 통합 문제를 제대로 풀어나가고자 한다면 데이터 품질 전문가를 정부 부처와 지자체마다 확보하고 있는지에 대해서 자문해봐야 한다. 정보시스템 성공과 범정부 AI 플랫폼 성공을 위해서는 데이터 품질이 무엇보다 중요하기 때문이다. 정부가 AI 플랫폼을 구축하겠다는 이야기는 공공데이터를 AI의 먹이로 사용하겠다는 말과 같다. 그렇다면 AI에 먹일 데이터의 품질에 대해서도 당연히 신경을 싸야 한다. 품질이 조악한 수준인 데이터를 먹이면 어떤 환각 현상과 착시 현상이 벌어질지는 말하지 않아도 잘 알 것이다. 마침 범정부 AI 플랫폼 사업은 정보시스템계획(ISP) 단계라고 하니 서둘러 데이터 품질 관련 분석 및 설계 전문가가 있는지 꼭 체크해봐야 할 것이다. 행정망 마비 사태 이후에도 데이터 품질을 검토해 보겠노라는 정부의 의지는 전혀 보이질 않았다. 이는 역으로 보면 정부가 데이터 품질에 대해 나름 자족하고 있다는 간접적 증거 아닐까. 디지털 정부 평가에서 한국이 세계 1위를 차지했다고 해서 자족해서는 아니 될 이유가 있다(아주경제 2024년 1월 30일자). 더구나 2년 연속 1위라는 사실을 접하는 시민들로서는 정부의 이미지가 행정망 사태와 겹쳐 앞뒤가 전혀 맞지 않는다는 의견이 보편적이다. 행안부는 이런 모순에 대해 스스로 “평가 기준이 다르기 때문”이라고 설명한다(2024년 1월 31일자 조선일보 8면). 그렇다. OECD 같은 국제기구에서는 시스템의 질보다는 정보공개 개방성에 초점을 둔다. 그게 국제기구 평가의 현주소이자 한계다. 주요 평가항목 모두 정부나 지자체가 보유하고 있는 정보에 대해 시민들과 공유할 의지를 평가하는 것 위주인 탓이다. 데이터 공개 항목이 단적인 예다. 개방 의지에 대해서는 한국은 상당히 앞서 있지만 데이터 품질을 보는 학계 시각은 많이 다르다. 학계에서는 데이터 품질에 더 가치를 두며 품질을 구체적으로 수치화할 수 있어야 한다고 본다. 이런 품질 수치 지표에는 여러 가지가 존재하는데 그 대표적인 것으로는 데이터가 얼마나 불필요하게 중복되어 있는지를 나타내는 데이터 중복률이다. 인체에 비유하면 ‘데이터 비만도’와 동일한 맥락에서 이해하면 된다. 낮출수록 품질은 좋아진다. 데이터의 군살을 빼기 위해 필요 불급한 것들은 완전히 제거하는 것이 데이터 비만도를 낮추는 지름길이다. 그래야 시스템의 질과 속도가 개선된다는 것은 학계 정설이다. 그러나 현장에서는 중복을 오용하고 더 나아가서는 남용하는 게 관행처럼 돼 있다. 이러한 불필요 데이터 중복률 수치까지 고려한다면 OECD 평가와는 다른 순위가 나올 것이다. 실제 말단에 깔려 있는 데이터 품질에 집중하지 않다 보니 핵심을 벗어나는 시스템 유지보수에 온갖 신경을 곤두세우는 정부 관행도 문제다. 데이터 전체 유통 경로를 파악하기가 불가능하다 보니 분절된 시스템에 대한 유지보수도 힘들어진다. 데이터가 코드(컴퓨터 프로그램) 속에 중구난방으로 섞여 있어 어느 것이 데이터인지 분간해내기 불가능하다. 따라서 시스템 튜닝을 하는 과정에서 코드를 잘못 건드리면 데이터까지도 건드리게 되는 화를 불러일으키는 불안을 안고 있다. 데이터 전문가에 따르면 행정망 먹통 사태의 가장 유력한 단서로는 첫째, 시스템 발주 컨트롤타워 없이 실·국별로 발주하는 그릇된 관행이 이어져 온 점과 둘째, 데이터 맵 없이 바로 코딩해 버리고 마는 고질적 행태가 지목되고 있다. 이런 가운데에서 공공 데이터 품질 개선 노력 없이 범정부 AI 플랫폼을 구축하거나 시스템 유지보수 관행을 변경해 본들 무슨 소용이 있을까. 정부 디지털 행정 장애 방지대책(조선일보 2024년 1월 31일자)을 봐도 데이터 품질에 대한 언급은 전혀 없이 시스템 유지보수에 초점을 둔 것들 위주다. 그 대책의 요지는 이렇다. 정부의 정보시스템을 관리하는 기관인 국가정보자원관리원 산하에 사이버장애지원단을 신설하여 먹통 사태 등이 또다시 재발했을 때 지원단이 이를 관리하는 태스크포스 역할을 한다. 앞으로 국가정보관리원이 중심이 되어 위험 징후 조기 판단과 시스템 안전성 진단 지원을 하겠다는 것이 골자다. 대책에 따르면 유지보수 체계를 개편하고 소프트웨어 구축에 대기업 참여를 허용하겠다고 한다. 그러나 시스템 유지보수에 초점을 두어서는 데이터 품질이 달라지기 불가능하다. 왜 그런가. 그 발표에 의하면 행정·공공기관이 보유하고 있는 정보시스템이 무려 1만7000여 개로 나타났다. 데이터 품질 관리를 위해서는 시스템 분절 현상이 더 이상 확대되지 않게 하는 데 초점을 두어야 한다. 이를 위해서는 시스템 발주 때부터 국가정보관리원이 국가 데이터 품질을 총 설계·관리하는 주체 역할을 해야 하는데 그게 아니라 유지보수에서 역할을 다하겠다는 것으로는 역부족이다. 정부의 주요 대책 중 다른 하나는 그간 금지돼왔던 대기업 참여를 전격 허용하겠다는 내용도 나온다. 그러나 대기업이 참여한들 달라질 가능성은 별로 없다고 본다. 최근 보건복지부 사회복지행정시스템에서 드러났듯이 대기업이 개발을 주도했음에도 시스템 먹통 사태는 재연됐다. 개발을 주도했던 대기업이 문제 해결을 위해 불철주야 노력해왔으나 6개월이 지난 뒤에도 해결 기미가 보이질 않았다. 그 대기업은 결국 사업 전체 중도 하차를 통보한다는 보도가 뒤따랐다(전자신문 2023년 5월 22일자). 대기업은 국가 정보시스템 사업에 이윤을 보고 들어가지 않는다는 말이 있다. 대기업이 개발을 주도하고 시스템 초기 안정화를 위해 대기업 측에 유지보수를 2~3년간 한시적으로 맡긴다 해도 유지보수는 대기업에는 큰 몫이 되지 않아 결국 결국 중소기업 손으로 유지보수가 넘어갈 수밖에 없는 구조다. 따라서 앞으로는 시스템 개발 시 참여 기업 규모보다는 데이터 품질 기준을 도입하고 데이터와 코드를 절대로 섞지 않고 철저히 분리하는 설계 철학을 준수하도록 강제하는 규정이 무엇보다 시급하다. 그다음으로는 중요도에 따라 정보시스템 등급을 나누는 일보다 더 급한 일은 불필요 데이터 중복률 개선에 초점을 둔 데이터 품질 기준이 국가 시스템 전반에 뿌리내리게 하는 일이다. 유지보수 체계를 개선하겠다는 정부 의지는 인정하지만 데이터 통합이라는 최하단이 허술한 상태에서 유지보수라는 최상단만 강화한다고 해서 데이터 품질이 개선될 수 없기 때문이다. 그러므로 국가 공공 데이터에 대한 진정한 주체 역할을 하는 곳에서는 다음 두 가지가 필수다. 첫째, 실·국별 시스템 분절 발주가 불가능하도록 발주 창구를 단일화해야 한다. 둘째, 분절된 수많은 시스템을 대폭 줄여 가볍게 만들어야 한다. 시스템 통폐합이 문제가 아니라 데이터 통합 과정이 문제의 핵심이라는 뜻이다. 과거 데이터 통합에 성공한 국내 모범 사례들도 여럿 있으니 심층 조사해 봐야 할 것이다. 시스템 통합에는 방법론이 있다. 그러나 시스템 통합 방법론도 데이터 중심적으로 돼 있지 않으면 무늬만 통합이지 데이터는 결국 따로 놀게 된다. 데이터가 중차대한 이 시대에 범정부 AI 플랫폼 설계 과정에 수준 높은 데이터 전문가가 포함돼 있었는지 국민들 앞에서 철저히 검증받는 과정도 필요할 것이다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
챗GPT라는 생성AI 사용자가 작년 이맘때 1억명에서 지금은 1억8000만명으로 증가했다고 한다. 보기에 따라 다른 해석이 나올 수는 있겠으나 1년 사이에 이 정도 증가세면 세간의 관심에 비해서는 생성AI에 대한 반응이 그리 큰 것은 아니라고 평가할 수 있겠다. 역시 1년 전 일이지만 국내에선 윤석열 대통령이 챗GPT로) 신년사를 써보니 훌륭하더라고 말해 화제가 된 적이 있다. 그래서 정말 대통령 신년사를 작성해 달라고 해봤다는 것이다. 그랬더니 불과 10초 만에 기계가 만든 신년사가 나왔는데 국정철학을 가미한다면 제법 쓸 만한 초안이 될 것 같았다는 평가가 나왔다. 기계에 물어봤더니 그럴듯한 답변이 온전한 문장 형태로 제시됐다는 뜻인데, 여기서 주목할 점은 그 답변은 기계가 임의로 생각하는 과정을 거쳐 나온 게 아니라 빅데이터 학습 결과로 나온 것이라는 사실이다. 생성AI가 영상이나 이미지 인식 영역에서는 이미 신의 경지에 들어가 있는 상태다. 그렇다면 거기에 그치지 않고 인간과 유사한 생각과 문장 구사까지도 어렵지 않게 처리하는 것을 보면 도대체 기계에 무엇을 학습시켰기에 가능해진 것일까. 그것은 전적으로 학습 대상에 달려 있는 것이다. 사실 생성AI 첫 출현 시 사람들에게 거부감이 그리 크게 일지 않았던 데에는 그렇게 되도록 철저히 사전 준비한 배경이 있었다. 2023년 1월 18일자 타임지 독점 취재 보도에 의하면 오픈AI라는 회사가 챗GPT의 성공적 출범을 위해 그 기술을 세상에 공개하기 전 무려 1년여에 걸쳐 데이터 중에서 악성 데이터를 걸러내는 사전 작업을 대규모로 전개했다는 사실이 밝혀졌다. 그 여과 작업은 주로 빅데이터에서 데이터 등급을 분류 및 레이블링하는 것으로서 만일 수작업으로 할 경우 족히 10년 이상 걸릴 만한 분량의 빅데이터 집군에 대해 이뤄졌다고 한다. 동원된 인력은 영어가 가능한 케냐·우간다·인도 지역 인력으로 시간당 평균 2달러 이하의 저임금 처우를 받는 조건으로 후진국 현지에서 작업이 수행됐다는 것이다. 3교대로 하루 9시간씩 일했다고 하니까 고된 작업 치고는 1만5000원 정도의 일당을 받고 일한 것이다. 1가족 하루 1달러 생활권인 아프리카에서는 괜찮은 일당이라고 생각할 수도 있을지 모르지만 이를 두고 혹사당했다는 아프리카 현지 보도도 있었다(아프로테크 매거진 2023년 1월 26일자 보도). 이 프로젝트가 5만여 명의 생계가 달린 작업이었다니 동원 인력은 대략 2만~3만명 수준으로 추산된다. 그럼에도 불구하고 미국 빅테크 기업들이 이 프로젝트에 지불한 비용 전체 규모는 수억 원대에 불과했다. 이로 인해 저임금 불평등 문제, 더 나아가서 현지 인력들이 정신적 고통을 겪은 일들이 화제가 되기도 했다. 그런 인권 문제를 부각시켜 보기 위한 기획취재이기도 했으나 또한 동시에 우리에게 시사해주는 바는 AI에 학습시킬 대상을 준비할 때에는 이만큼 철저히 하지 않고는 출범 후 몇 달 안 가서 실패했을 것이라는 점이다. 따라서 조직 내에서 생성AI를 적용하여 성공하려면 적용 기업들은 최소한 무엇을 어떻게 언제까지 준비해야 할 것인지에 대해 준비하지 않으면 아니 될 것이라는 묵시적 경종을 던져주는 일이기도 했다. 우리나라를 보면 새로운 돌풍에 대한 관심이 대단하지만 사전 준비에서는 늘 미흡한 경우가 많은 편이다. 알파고 대국 당시를 한번 회상해보자. 언론 보도 횟수를 놓고 보면 한국의 열기가 영국보다 10만배 더했다. 생성AI 출현 이후 그에 거는 기대와 반응 역시 대동소이한 편이다. 이런 상황에서 우리가 기업에 생성AI 적용할 준비를 과연 제대로 하고 있는가 자문해보면 답은 그렇지 않다. AI에 정작 뭘 학습시켜야 하는지도 정확히 모르고 있으며 막연하게 들떠 있는 게 현장 실정이다. 어떤 조직이든 기업 업무에 AI를 적용하려면 자체적으로 가지고 있는 텍스트 자료를 반드시 AI에 쓸모 있을 형태로 다 뜯어고쳐야 한다. 그런 변환 과정을 제대로 거치지 않은 준비 미비 상태에서 AI 적용 후 발생한 AI 환각 현상에 대해서는 변명의 여지가 없는 것이다. 이른바 AI 환각 현상이란 이런 준비가 부족할 때 겪는 일이다. 일각에서는 AI 사용 준비에 오픈AI가 한 것처럼 데이터 레이블링 절차만 거치면 되는 것으로 이해하고 있으나 그건 오해다. 지금 국내 여러 곳이 눈에 띄기도 한다. 이미지 분석이라면 그 정도로 되겠지만 텍스트 분석에서는 훨씬 정교하게 준비해야 한다. 텍스트가 한글일 경우 특히 더 그렇다. 한글 문서를 영어로 기계 직역한다고 해도 소용이 없다. 기계는 ‘콩글리시’를 이해하지 못한다. AI는 기계다. 기계는 어떤 문장이든 글자 하나 틀리지 않게 정확히 묘사해주지 않으면 환각 현상을 자동으로 일으킨다. 텍스트 쪽에서는 AI는 마치 영어 구조에 특화돼 있다고 할 정도로 한글 구조와는 상극이다. 이에 대해 충분히 이해하려면 한글과 영문의 차이를 잘 알아야 한다. 독자 이해를 돕기 위해 아래 두 가지 예를 통해 간단히 살펴보겠다. 한 가지 오해를 불식시키기 위해 먼저 밝힐 것은 여기서 언급하는 한글 문서는 교과서처럼 국어 문법을 다 지킨 경우가 아니라 직장 내 통용되는 현장 문서를 가리킨다. 직장 내 한글의 장점이자 단점은 표현의 융통성 혹은 포괄성에 있다. 반면 그만큼 표현의 적확성이 떨어지는 경우가 많다. 첫째, 수식어의 경우다. 수식어를 쓸 때 수식의 대상인 명사가 뒤에 나타나고 수식어 자체는 명사 앞에 나오는 것이 한글 표현이다. 그런데 수식이 길어지면 수식어가 하나에 그치지 않고 두서너 개씩 여러 개가 있을 수 있다. 수식어 다음에 나오는 명사가 단 하나인 경우에는 명사 앞의 수식이 그 명사에 국한되지만 만일 명사가 하나 이상 나오는 경우는 명사들 앞의 어느 수식어가 어느 명사를 수식하는지 판단하기 힘들다. 반면 영어의 장점이자 단점은 융통성이 떨어지고 포괄적이지는 못하지만 문장 내 어느 부분이 어느 다른 부분을 수식하는 것인지가 매우 명확하다. 영어에서는 수식어가 길 경우 수식어는 반드시 명사 앞이 아니라 명사 바로 뒤에 나타나게 돼 있다. 그게 영어의 문법이다. 그래서 어느 형용사가 어느 명사를 수식하는 데 쓰이는 것인지 분명하다. 언어의 표현 능력은 물론 동등하지만 표현 적확도에서는 한글과 영어 간에 차이가 존재한다는 사실을 보여준다. 둘째는 동사 구사에 관한 것이다. 직장 내 문서에서는 '···처리하고 송부한다'는 식으로 처리라는 동사와 송부라는 또 다른 동사가 연달아 나타나는 경우가 많다. 이럴 경우에 ‘처리하고’라는 부분 앞에 나오는 내용을 보면 누가 무엇을 어떻게 처리하는지에 대해서는 정확히 묘사되어 있겠지만 ‘송부한다’에 대해서는 처리한 다음 누가 무엇을 어디로 어떻게 송부하는지에 대해서는 묘사가 생략되어 기계로서는 알 방법이 없게 된다. 이런 경우에는 기계는 앞에 나타난 동사인 처리의 주어를 송부의 주어로 삼고 처리의 목적어를 송부의 목적어로 잡는 수밖에는 도리가 없다. 따라서 묘사가 생략되는 바람에 기계가 오해할 여지가 발생하는 것이다. 환각 결과가 발생할 수 있다는 말이다. 영어는 문법상 동사가 두 개 이상 연이어 등장하는 걸 절대 허용하지 않는다. 위 두 가지 비근한 예는 쉬운 이해를 위해 제시한 것이지만 그게 전부는 아니다. 사실은 직장 내 문서를 AI 시대에 맞게 다 변환하고 대다수 조직의 경우 새로 마련하지 않으면 안 된다. 요약하면 일련의 업무 처리 행위가 일목요연하게 묘사된 업무기술서를 만들어야 한다. 업무지침서 같은 것으로는 어림없다. 이게 생성AI 준비 작업의 첫걸음이다. 금년 한 해는 생성AI의 시행착오를 공공기관을 비롯하여 여러 기업에서 많이 겪을 것으로 예견한다. 어느 제품이 한글에 특화돼 있다는 상술에 현혹된다면 큰 낭패를 볼 수도 있다. 어디서나 경영 압박을 경험하는 상황에서 누구의 말이 씨가 됐든 아니든 간에 철저한 준비 과정 없이 시류에 편승한답시고 그냥 달려들면 후회가 막심할 것이다. 기업의 경우에는 단순히 비용 낭비로 그치지 않는다. 누군가 회계상 책임을 져야 하는 일들이 벌어질 수 있다. 공공기관의 경우도 마찬가지다. 이대로 준비 과정을 미흡하게 하다가 연간 수조 원의 예산 낭비가 우려된다. 지금 섣불리 달려드는 공공 부문이 많기 때문이다. 감사원에서는 사실 이런 일을 방지하는 효율적 선제 감사를 실시하는 게 국민들이 원하는 바다. AI 예산의 경우 잘못 적용한 탓에 국세 낭비를 초래했는지에 대해 뒷북 치듯 추궁해본들 무슨 소용이 있을까. 시대는 디지털 감사를 건설적으로 할 것을 요청하고 있다. 사상 초유로 디지털감사국이라는 조직을 갖춘 감사원에서는 이걸 알았으면 한다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
요즘 데이터가 무엇보다 중요한 자산이라고는 하지만 IT 강국이라는 우리나라 데이터 환경의 이면을 들여다보면 여전히 갈 길이 멀다는 평가가 지배적이다. 최근에는 국가행정전산망이 마비되는 사태가 예고도 없이 발생했다. 말이 국가행정전산망이지 국가 전산시스템이라고 부르는 게 더 적절할 만큼 종전 수작업을 기계로 자동화한 사무자동화 체계를 의미한다. 컴퓨터 망을 가리키는 낮은 수준이 아니다. 육법전서를 방불케 하는 이런 소프트웨어 체계의 가장 기초가 되는 것은 다름아닌 바로 데이터다. 소프트웨어란 컴퓨터 언어로 표현된 기계 명령이지만 명령이란 존재는 데이터라는 먹이 없이는 무용지물이기 때문이다. 따라서 명령보다도 더 기초가 되는 것이 데이터다. 컴퓨터 시스템이 작동되다가 먹통이 되는 이유는 여럿이지만 데이터 잘못인 경우가 많은 것도 그래서다. 하드웨어 잘못으로 서는 일은 거의 없다. 현대 사회에서 대부분의 업무는 정보시스템에 의존적이다. 시스템이 장애를 일으키면 작업이 중단되어 난리가 나게 마련이다. 그럴 때마다 정보시스템 운영 주체는 비난을 받는다. 이런 일은 끝없이 반복된다. 무장애 시스템은 마치 존재하지 않는 것처럼 보인다. 기술의 장애는 불가피하다는 생각이 지배적이다. 시스템 운영 주체에 대한 비난은 그래서 그냥 화풀이에 불과할 수도 있다. 그러나 진정한 전문가들은 이런 생각을 거부한다. 기술은 정확한 것이고 그래서 거의 완벽한 시스템 구축이 가능하다고 생각하는 편이다. 운영체계인 윈도가 쉽사리 꼬이지 않는 걸 봐도 그렇다. 컴퓨터는 본디 그렇게 만들어졌다. 그런 무장애 시스템을 만들기 위한 방법은 무엇보다 정교한 데이터 지도를 갖추는 것이다. 그게 정보시스템의 안정성을 좌우한다. 정부에 데이터지도가 없다는 말은 믿기 어렵다. 그러나 ‘정교한’이란 수식어가 붙으면 달라질 수 있다. 데이터지도는 있되 정밀하지 않을 수 있다는 의미다. 난개발로 지도가 통합적이지 못하고 누더기처럼 볼썽사납게 기워져 있을 수 있다는 뜻이다. 어떤 문제가 터졌을 때 수리 시한 관점에서 보면 과연 어떤 유형의 사고였는지 대개 추정 가능하다. 2~3시간 소요됐다면 하드웨어 문제라고 볼 수 있겠고 반나절 정도 걸렸다고 한다면 코딩 문제라고 보는 것이 정상이다. 그러나 만일 그 이상 끌었다면 해결하기 가장 어려운 부분에 해당하는 데에서 문제가 발생했을 것이라는 정황을 추정해 볼 수 있다. 이런 맥락에서 보면 전산에서 난도의 순서는 하드웨어, 코딩 명령, 그 다음이 데이터다. 전산시스템도 기계가 자동으로 만드는 건 결코 아니다. 사람 손을 일일이 거쳐 만들어지는 것이라 제작 상 기술적 난도도 데이터가 최고난도다. 요즘 하드웨어는 기계가 자동 제작해내고 코딩 또한 생성AI를 통해 70% 정도 자동 제작할 정도지만 데이터만큼은 기계가 도와줄 수 있는 영역 밖이다. 일일이 사람 손을 거칠 수밖에 없는 부분이라 데이터 설계는 사실상 예술에 가깝다. 데이터라고 하면 눈에 보이는 것은 아무거나 다 데이터인 것으로 착각할 수 있지만 사실은 데이터가 뭔지도 모르고 데이터라고 하는 이들이 많은 게 사실이다. 데이터를 제작할 때 가장 중요한 첫 단추는 데이터들이 돌아다닐 수 있도록 만드는 데이터 경로를 잘 설계하는 일이다. 이것은 마치 자동차가 잘 다닐 수 있게 도로교통지도를 만드는 일과 같다. 따라서 데이터 부분에서 장애가 일어나는 경우의 대부분은 데이터 경로가 잘못 설계되어 데이터를 찾아가던 도중 길이 막혀서 더 이상 진행하지 못하고 그 지점에서 시스템이 자동 정지되는 경우다. 데이터라는 걸 한마디로 딱 알아듣기 쉽게 설명한다고 하면 음식을 만들 때 사용하는 식재료에 해당한다. 그 식재료를 써서 완제품 요리를 만드는 것이 데이터 가공 과정이고 그건 컴퓨터 명령의 몫이다. 생선으로 말하면 횟감, 그게 바로 데이터다. 횟감이 튀겨지고 프라이팬에 요리되고 지지고 볶는 요리 과정을 거치면 그건 데이터가 아니고 정보라고 부르기 시작한다. 데이터라는 말을 굳이 쓰는 이유는 데이터가 다른 어느 것, 즉 정보 첩보 지식 보다도 원초이기 때문이다. 정보처럼 가공된 것은 데이터가 아니다. 횟감에서 파생되는 존재일 뿐이다. 그래서 횟감들 간의 관계를 정교하게 분석하지 않은 상태로는 데이터다운 데이터가 들어있지 않은 엉터리일 뿐이다. 클라우드(CLOUD)의 CL이 클래스, 데이터의 품격을 가리키는 것도 그런 연유다. 데이터의 품격을 지키라는 말은 품질 좋은 데이터 아니면 데이터로는 결격이라는 뜻이다. 그러니까 식재료인지 아니면 완제품 나오기 전 중간 상태의 요리인지 아니면 완제품인지 잘 분간할 줄 아는 지식이 필요하다. 사실 식재료 같은 경우에도 원재료가 굉장히 싱싱하고 좋으면 요리사가 초보라고 하더라도 요리가 맛있지 않은가. 우리 사회 전반의 공공 데이터 환경에서 데이터의 가장 큰 문제점은 품질 좋은 데이터만을 한눈에 볼 수 있게 하는 전체 데이터지도 한 페이지를 애초부터 제작해 놓지 않는다는 점이다. 데이터지도가 수백 수천 가지 조각으로 파편화되는 경우에는 데이터 간 충돌이 심해 불필요한 중복이 많아지고 누더기 덩어리처럼 처치 곤란한 상황으로 빠지게 된다. 그러니까 데이터지도란 한마디로 전국도로교통지도에 해당하는 것이다. 전국도로교통지도 없이 차 운전이 가능한가. 그런 데이터지도란 존재를 회사 내에서 본 적이 없다면 그 회사는 데이터 관리가 아예 안되고 있다고 보면 정확하다. 데이터 실력이 어느 수준인지는 다음 두 가지 질문으로 냉정하게 판가름 난다. 첫째는 데이터 개수가 과연 몇 개인가다. 데이터 볼륨이 아니고 성명, 주소, 연령 같은 데이터 이름의 개수를 얘기하는 걸 말한다. 그러므로 데이터 개수를 모른다면 그 조직 데이터는 엉성하게 설계돼 있다는 증거다. 그 다음에 던져야 할 질문은 데이터 중복률 산정이다. 우리가 인체에 불필요한 지방이 너무 많이 쌓이면 체지방률이 높아지듯이 데이터 지방률, 즉 데이터 비만도가 높으면 그 기업의 정보 업무가 마비되고 만다. 사람이 고지혈증 같은 것으로 쓰러지듯이 기업도 쓰러지는 국면으로 진입 가능하다. 그러므로 데이터 중복률을 자체적으로 계산해 본 적이 없다면 그 조직 데이터는 엉성하다는 또 다른 증거다. 위 두 가지 관점의 데이터 수준 평가는 조직 내 데이터 수준 전반을 점검해보자 할 때 적용할 수 있는 잣대이기도 하다. 기술적으로 정리하면 중복률은 최대 20%를 넘으면 데이터 설계는 엉망이라고 보면 된다. 그 선을 지키기 위해 데이터 표준형이 나온 지 벌써 60년이 됐다. 그럼에도 불구하고 표준화 이론을 무시하고 주먹구구식으로 정부 시스템이 구성돼 있는 게 문제다. 정부에 데이터지도가 없다는 말이 이제 이해가 될 것이다. 그러나 이걸 전문가 아닌 국민들이 알 도리가 없다. 그래서 과거에는 설령 속여도 그만이었다. 데이터 품질을 안 지키면 별의별 불상사가 다 일어날 수가 있다. 숨어있던 문제들이 수면 위로 올라와서 이번 행안부 사태처럼 큰 사고로 터져야 비로소 실체가 외부로 드러난다. 그래도 정부는 이번 사태처럼 어떻게 데이터 품질을 개선해야 하는지 모른 채 시간만 보내고 있다. 정부 주도로 클라우드 기반으로 전산 환경이 바뀌면서 데이터 재정비가 큰 숙제로 떠오르고 있다. 정부에 단일 통합데이터맵이 없는 까닭에 데이터를 클라우드로 있는 그대로 가져간다면 후폭풍을 감당할 길 없기 때문이다. 대구시만 예외적으로 모범 행보를 보이고 있다는 게 눈여겨볼 점이다. 대구시는 데이터 설계를 클라우드 시대에 걸맞게 다 뜯어고쳐야 한다는 생각으로 대대적인 작업 중이다. 쓸모없는 중복 데이터 과다 현상에 덧붙여 데이터 간 관계조차 제대로 파악되지 않아 데이터 오류가 빈번하다는 게 대구시 입장이다. 불필요한 데이터 제거가 최대 관건이라는 사실도 알고 있다. 대구시 디지털혁신관에 의하면 “지금 시스템은 구식 정보화 사업에 따른 거라 어떤 업체가 어떻게 설계했는지 모르는 경우가 많다”며 “클라우드 세상으로 넘어가기 전 선결과제는 대 시민 서비스 효율화를 할 수 있는 데이터품질 개선”이라며 데이터 개선에 대한 강한 의지를 밝혔다. 대구시와 다른 지자체가 달라야 할 이유는 없다. 정부나 다른 지자체는 대구시처럼 환경 변화에 호기심은 있는 시늉이라도 해야 하지 않겠나. 혁신을 DNA로 하는 디지털 정책을 다루는 고위직에 행정고시 출신들이 즐비한 것도 문제다. 왜 하필이면 행안부가 국가정보자원관리원을 관할 하에 두고 있을지 국민들은 이해하지 못한다. 재난 안전을 책임지는 부처 서열 때문일까. 구 시대 발상으로 행안부가 국가데이터 일체를 관리할 게 아니라 국가데이터 고위 책임자를 따로 두어 전문가로 하여금 국가데이터를 총괄하는 방향을 모색해야 할 것이다. 영국은 그렇게 해온 지 벌써 3년째다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
-
'행정망, 거의 데이터 쓰레기장 수준' '데이터 지도 없이 엉켜 있어 사고 또 나도 당연해'. 이런 뜨끔한 기사 표제를 우리는 지난 몇 주간 많이 봐 왔다. 왜 나라가 이 모양 이 꼴이 됐을까. 행정안전부가 국가의 주전원 역할을 함에도 불구하고 국가 통합데이터지도도 없이 여러 시스템을 운영하다 보니 그랬다. 앞뒤가 맞지 않는 해명을 연달아 내놓아 불신까지 더했다. 여러 군데서 발생한 후속 연쇄 사고도 모두 행정망에 연결돼 있는 것이다. 행정망이 켜지지 않으면 구동조차 안 되는 하위 종속 시스템들이다. 그러나 행안부는 사고 간 연계성을 현재까지 부인하고 있다. 고질적인 부인 강박관념에는 배경이 있다. 행정전산화의 형님 노릇을 총무처가 맡기 시작한 1980년대 초부터 최상위 주무 부처로서 자리매김한 데 있다. 그 당시는 컴퓨터 전문인력이 부족한 시기였고 명칭 자체가 안전’행정’부라 전산화 자문도 주로 행정학과 교수의 영역이었다. 현재 디지털플랫폼정부위원회 구성을 봐도 별반 바뀐 게 없을 정도니 잘못된 인선 관행이 뿌리 깊게 드리운 탓이다. 전산학과 교수가 그 위원회에 참관인 자격으로 갔다가 마치 외계인 취급받고 나왔다는 일화가 있을 정도다. 인의 장막이 촘촘하게 쳐진 원인은 어디서 찾을 수 있을까. 한국 사회의 보편적인 하드웨어 일변도 사고방식이 원인이다. 지난 30년간 과학기술부 혹은 정보통신부 식으로 불렸던 통칭 과기부에 반도체 혹은 통신 전문가들만 역대 장관에 기용된 걸 보면 이해가 갈 것이다. IT의 80%는 소프트웨어(SW)고 불과 20%만이 하드웨어(HW)다. HW 전문가들 사이에서는 HW가 반, SW가 반이라고 하는 이들도 있지만 여하튼 비중을 따지면 SW 쪽에 조금 더 기우는 편이라는 점은 공인된 사실이다. 예를 들면 F-35 전투기 가격이 무려 1조원에 이르는데 SW 가격만 그중 5000억원을 상회한다는 점을 보면 알 수 있다. 4차 산업혁명이 빅데이터 인공지능을 필두로 하는 것이고 이들이 HW가 아닌 SW라는 사실을 안다면 지난 30년간은 HW 전문가 위주로 이어져온 구태의연한 장관 인선 패턴이 달라지지 않는 건 희대의 불가사의 중 하나라 할 것이다. 산업구조도 영향을 미쳤다. 우리나라의 글로벌 시장점유율은 HW 대 SW가 20대 1 수준으로 말도 못하게 불균형이 심한 상태다. 절름발이다. 이로 인해 HW 핵인 반도체라도 선방하자는 마지노선 구축 의지가 지난 30년간 발로된 데 있다. 그 와중에 두뇌산업 SW는 안중에도 없었고 아직 첫 삽조차 못 뜬 불편한 과거가 있다. 그사이 세상은 SW 중심에서 데이터 중심으로 변해 데이터는 이제 제2의 석유로 불릴 만큼 선진국에서는 저만치 가 있다. 제2의 반도체 정도가 아닌 것이다. 벌써 우리와 격차가 상당히 벌어져 있는 상황이라 여기서도 막차 인생을 면하기 힘든 상황에 처해 있다. 이번 행정망 마비 사태 원인이 라우터 쪽에 있는 게 아니라 데이터 쪽에 있다는 결정적 단서가 사태 발발 후 불과 사흘 만에 잡혔다. 정부24에서 민원서류를 신청했더니 그 서류 외에도 다른 서류까지 한꺼번에 출력되는 엉뚱한 결과가 나왔다(전자신문 11월 20일자 1면 보도). 이건 라우터 오류와는 다른 것으로 두 번에 걸친 정부 해명과 달리 데이터 오류가 분명했다는 증거다. 이걸 알고도 정부는 하드웨어 오류였다고 항변하고 싶은가. 그렇다면 스스로 '컴맹'이라는 사실을 국민 앞에 자랑스럽게 자인하는 꼴 아닌가. 이런데도 정부가 희귀종 HW 오류였다는 결론을 황급하게 발표한 행안부의 자세를 어떻게 봐야 할까. 일단 넘어 가보자는 저의가 깔린 것이 아닐까. 혹시 국제 행사 유치 표결을 며칠 앞둔 상황에서 국격 이미지 훼손 악영향에 신경이 쓰였나. 정부 수준이 충격적이다. 이번 사태가 데이터 문제에 대한 경각심을 불러일으키는 계기가 된다면 불행 중 다행이다. 전국 도로교통 지도도 없이 차 사고 지점을 찾아내야 하는 상황을 한번 연상해 보라. 무슨 이유로 도로가 막혀도 우회할 방법도 몰라 사고 지점 찾다가 허송세월하는 꼴에 해당한다. 현재 행정망은 실·국별로 각개전투식으로 산발 발주돼 다른 업체가 서로 다른 시기에 만든 1440개 시스템이 통합데이터지도 없이 각자 돌아다니는 꼴이라고 보면 된다. 마치 간선 도로가 유실됐다 해도 그걸 모른 채 어디선가 한없이 헤매는 형국과 같다. 행안부에서 다루는 업무 전체를 보면 성명, 주소 등 데이터 항목 수가 전체적으로 기껏해야 2만개 이내 정도면 충분하고도 남는데 실상은 놀랍게도 현재 행정망 전체에 900만종 이상 잡동사니 수준 데이터로 엉켜 있어 심한 몸살을 앓고 있는 중환자 상태다. 말하자면 쓸데없는 잡동사니가 898만개씩이나 누더기로 군데군데 끼어 있단 뜻이다. 행정망 내부 데이터가 거의 쓰레기장 수준이라 코딩 프로그램이 데이터를 찾아가다 오류가 발생해 잘못된 답변 혹은 지연을 유발하고 있다. 언제 다시 사고가 나도 전혀 이상하지 않을 만큼 끔찍한 상태다. 현행 1000여 개 시스템을 단 1개 시스템으로 통합형으로 합치면 깨끗하게 해결될 수 있는 문제들이다. 단 4개월 내에 합치는 기술도 이미 나와 있다. 통합된 지도가 없다 보니 문제가 터질 때마다 졸속 해결책을 찾기 위해 벌어지는 진풍경은 이렇다. 컴퓨터 프로그램에서 접근하는 데이터가 어느 데이터인지 역추적해내는 후진적 방법이다. 기술적으로는 이를 역공학이라고 부른다. 데이터가 컴퓨터 코딩 프로그램의 먹이가 되는 게 정상 순리거늘 앞뒤가 완전히 거꾸로 돌아가는 진풍경이 펼쳐지는 것이다. 이는 현업에서는 비일비재하게 벌어지는 불편한 진실이지만 아무 문제 없을 때는 통상적으로 그냥 묵과되고 넘어가곤 한다. 그러나 상황이 돌변하여 대형 사고가 터졌을 때에는 반드시 역공학적 방법을 써서라도 기어이 데이터를 찾아내 그들 데이터 간 연관성을 파악해 파편 부위 데이터 경로를 응급으로 파악해내야 한다. 부위를 찾아내는 데는 빨라야 2~3일 소요된다. 작업 투입 인력은 부위 크기에 따라 달라지지만 이번 사태에 현업 인력 100여 명이 투입됐다는 사실을 토대로 역산해보면 행안부 1440개 전체 업무 중 아마도 수십 종 업무에 관련된 영역에서 데이터 꼬임 현상이 발생했을 것으로 추정된다. 문제 부위를 찾았다 해도 근본적으로 고치는 게 아니라 임시 응급 땜질 처방인 까닭에 잠복한 시한폭탄이 언제 다른 부위에서 돌연 또 터져 나올지 모르는 상황으로 전개될 수 있다. 정부는 공공 소프트웨어사업에 대한 대기업 참여 제한 제거를 해결책인 양 제시하고 있으나 그건 해법이 못 된다. 행정망 운용 기관들이 각 시스템 개발의 주요 내용도 모른 채 유지보수 업체를 1년 단위로 선정해 프로그램이 잘 돌아가게만 맡아 달라고 하는 게 현 제도인데 이런 구조에서 대기업이 참여한다고 한들 달라지는 건 없는 게 당연하다. 정부가 1440개 시스템을 차제에 일원화하여 단 1개 시스템으로 물리적 대통합을 하려는 진정한 해법은 강구하지 않은 채 태스크포스 구성을 여전히 HW 혹은 해킹 같은 이상한 방향으로 가져가고 있어 걱정이다. 그렇다면 문제를 어느 방향으로 풀어 나가야 할까. 우리는 민원서류 홍수에 갇혀 살고 있다 해도 과언이 아닌 세상에 살고 있다. 행정망은 사실상 민원서류망이라고 불러도 무방하다. 주민번호가 없기에 서류를 국민 개개인이 직접 뗄 일도 없는 해외에서 보면 한국은 단연 기이한 별종 나라다. 그들은 공직사회에서 필요하면 서류를 그때그때 직접 만들어 쓴다. 국민에게 손품 발품 파는 번거로운 일을 강요하지 않는다. 그래서 민원서류란 말 자체도 존재하지 않는다. 이 지점에서 반드시 짚고 넘어갈 게 있다. 첫째, 주민번호 주무 부처로서 행안부가 K-디지털을 과시하는 대신 해외처럼 민원서류 제거에 앞장설 생각은 없는지 묻고 싶다. 둘째, 데이터 시대에는 서류가 단순 문서에 그치지 않고 데이터가 살아 움직이는 터전이 돼야 한다. 행정 데이터라고 해서 데이터가 갖는 성격이 갑자기 달라질 이유는 없다. 그렇다면 행정 데이터 관리 혁신을 위해서라도 행정학 전문가에게 맡길 게 아니라 시대에 걸맞게 데이터 전문가에게 문호를 개방하는 방향으로 체질을 개선하는 게 4차 산업혁명 시대에 맞지 않을까. 국가 예산이 전반적으로 쪼그라드는 가운데서도 유독 디지털정부 해외 홍보만은 예외적으로 증액됐다고 한다. 민원서류 없는 해외에 나가 자랑할 만한 소재가 과연 있을지 의문이다. 외관보다 내실에 치중하여 국민 서비스와 안전의 질을 높이는 쪽으로 가야 한다. 데이터 부실은 공공 부문에 만연한 현상이다. 국방도 위태로워질 수 있다. 국방 데이터 품질 역시 매우 부실하다는 국방부 감사 결과도 있기 때문이다. 현대전은 데이터전이다. 따라서 정교한 데이터 기반 전술 없이는 전쟁에서도 승산이 있을 리 만무하기 때문이다. 문송천 교수는 1970년대 대학 진학 때부터 컴퓨터를 전공했다. 카이스트와 케임브리지대 교수(전산학과·경영대학원)를 지냈으며 Y2K 한국 대표를 역임했다. 슈퍼컴퓨터를 최초 개발한 미국 일리노이대학에서 전산학 박사를 1980년대 초 취득함으로써 국가 전산학 박사 1호가 됐다. 박사과정 때부터 클라우드와 블록체인 분야를 세계 최초로 개척한 소프트웨어 제1세대 학자로서 클라우드라는 용어 자체도 그가 1982년에 세계 최초로 창안한 3인 중 한 명이다(클라우드란 용어의 유래는 데이터 관리의 중요성을 알리기 위해 데이터라는 뜻과 동격인 CLass/Object/Ubiquity/Distributed - 이 네 단어 이니셜 다섯 글자로 1982년에 만든 것). 만 24세에 대학교수 생활을 시작하여 데이터베이스, 빅데이터, 블록체인, 정보 보안 연구를 통해 저서 22권, 논문 199편을 쓰고 박사 제자 30명을 배출하였다. <컴퓨터개론>이라는 한글 교과서(1975년) 최초로 저술하고 ‘DB엔진’ 아시아 최초 개발(1990년), 블록체인 SW엔진 세계 5번째 개발(1992년)을 비롯해 기업 데이터베이스를 효율적으로 설계·개발·운영하기 위한 ‘데이터 비만도’ 개념을 창시하는 등 세계를 놀라게 하는 공적을 남겼다. 국가정보시스템 구축에 기여하여 ‘금융FBI’ 역할을 하는 FIU 시스템을 설계하고 특허청, 한국방송 등에서 데이터 설계를 총괄 기술 지도했다. IT 후학 양성을 비롯하여 UNDP·UNHCR·Red Cross 재난 현장 전문가로서 아프리카·중남미·동남아·동유럽·팔레스타인 등 개발도상국 30여 개국 현지 봉사활동을 통해 IT 한국의 위상을 세계 만방에 알린 공로로 대통령에게 국가녹조훈장을 서훈한 바 있다. 현재는 대한적십자사 친선대사와 유럽IT학회 아시아 대표이사로 활동하고 있다. 문송천 필자 이력 ▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수