[문송천의 디지털 산책] 데이터 비만도 높으면 조직 정보업무 마비된다
2024-01-08 06:00
아무거나 다 데이터가 아니다
요즘 데이터가 무엇보다 중요한 자산이라고는 하지만 IT 강국이라는 우리나라 데이터 환경의 이면을 들여다보면 여전히 갈 길이 멀다는 평가가 지배적이다. 최근에는 국가행정전산망이 마비되는 사태가 예고도 없이 발생했다. 말이 국가행정전산망이지 국가 전산시스템이라고 부르는 게 더 적절할 만큼 종전 수작업을 기계로 자동화한 사무자동화 체계를 의미한다. 컴퓨터 망을 가리키는 낮은 수준이 아니다. 육법전서를 방불케 하는 이런 소프트웨어 체계의 가장 기초가 되는 것은 다름아닌 바로 데이터다. 소프트웨어란 컴퓨터 언어로 표현된 기계 명령이지만 명령이란 존재는 데이터라는 먹이 없이는 무용지물이기 때문이다. 따라서 명령보다도 더 기초가 되는 것이 데이터다. 컴퓨터 시스템이 작동되다가 먹통이 되는 이유는 여럿이지만 데이터 잘못인 경우가 많은 것도 그래서다. 하드웨어 잘못으로 서는 일은 거의 없다. 현대 사회에서 대부분의 업무는 정보시스템에 의존적이다. 시스템이 장애를 일으키면 작업이 중단되어 난리가 나게 마련이다. 그럴 때마다 정보시스템 운영 주체는 비난을 받는다. 이런 일은 끝없이 반복된다. 무장애 시스템은 마치 존재하지 않는 것처럼 보인다. 기술의 장애는 불가피하다는 생각이 지배적이다. 시스템 운영 주체에 대한 비난은 그래서 그냥 화풀이에 불과할 수도 있다.
그러나 진정한 전문가들은 이런 생각을 거부한다. 기술은 정확한 것이고 그래서 거의 완벽한 시스템 구축이 가능하다고 생각하는 편이다. 운영체계인 윈도가 쉽사리 꼬이지 않는 걸 봐도 그렇다. 컴퓨터는 본디 그렇게 만들어졌다. 그런 무장애 시스템을 만들기 위한 방법은 무엇보다 정교한 데이터 지도를 갖추는 것이다. 그게 정보시스템의 안정성을 좌우한다. 정부에 데이터지도가 없다는 말은 믿기 어렵다. 그러나 ‘정교한’이란 수식어가 붙으면 달라질 수 있다. 데이터지도는 있되 정밀하지 않을 수 있다는 의미다. 난개발로 지도가 통합적이지 못하고 누더기처럼 볼썽사납게 기워져 있을 수 있다는 뜻이다. 어떤 문제가 터졌을 때 수리 시한 관점에서 보면 과연 어떤 유형의 사고였는지 대개 추정 가능하다. 2~3시간 소요됐다면 하드웨어 문제라고 볼 수 있겠고 반나절 정도 걸렸다고 한다면 코딩 문제라고 보는 것이 정상이다. 그러나 만일 그 이상 끌었다면 해결하기 가장 어려운 부분에 해당하는 데에서 문제가 발생했을 것이라는 정황을 추정해 볼 수 있다. 이런 맥락에서 보면 전산에서 난도의 순서는 하드웨어, 코딩 명령, 그 다음이 데이터다. 전산시스템도 기계가 자동으로 만드는 건 결코 아니다. 사람 손을 일일이 거쳐 만들어지는 것이라 제작 상 기술적 난도도 데이터가 최고난도다. 요즘 하드웨어는 기계가 자동 제작해내고 코딩 또한 생성AI를 통해 70% 정도 자동 제작할 정도지만 데이터만큼은 기계가 도와줄 수 있는 영역 밖이다. 일일이 사람 손을 거칠 수밖에 없는 부분이라 데이터 설계는 사실상 예술에 가깝다.
클라우드(CLOUD)의 CL이 클래스, 데이터의 품격을 가리키는 것도 그런 연유다. 데이터의 품격을 지키라는 말은 품질 좋은 데이터 아니면 데이터로는 결격이라는 뜻이다. 그러니까 식재료인지 아니면 완제품 나오기 전 중간 상태의 요리인지 아니면 완제품인지 잘 분간할 줄 아는 지식이 필요하다. 사실 식재료 같은 경우에도 원재료가 굉장히 싱싱하고 좋으면 요리사가 초보라고 하더라도 요리가 맛있지 않은가. 우리 사회 전반의 공공 데이터 환경에서 데이터의 가장 큰 문제점은 품질 좋은 데이터만을 한눈에 볼 수 있게 하는 전체 데이터지도 한 페이지를 애초부터 제작해 놓지 않는다는 점이다. 데이터지도가 수백 수천 가지 조각으로 파편화되는 경우에는 데이터 간 충돌이 심해 불필요한 중복이 많아지고 누더기 덩어리처럼 처치 곤란한 상황으로 빠지게 된다. 그러니까 데이터지도란 한마디로 전국도로교통지도에 해당하는 것이다. 전국도로교통지도 없이 차 운전이 가능한가. 그런 데이터지도란 존재를 회사 내에서 본 적이 없다면 그 회사는 데이터 관리가 아예 안되고 있다고 보면 정확하다.
데이터 실력이 어느 수준인지는 다음 두 가지 질문으로 냉정하게 판가름 난다. 첫째는 데이터 개수가 과연 몇 개인가다. 데이터 볼륨이 아니고 성명, 주소, 연령 같은 데이터 이름의 개수를 얘기하는 걸 말한다. 그러므로 데이터 개수를 모른다면 그 조직 데이터는 엉성하게 설계돼 있다는 증거다. 그 다음에 던져야 할 질문은 데이터 중복률 산정이다. 우리가 인체에 불필요한 지방이 너무 많이 쌓이면 체지방률이 높아지듯이 데이터 지방률, 즉 데이터 비만도가 높으면 그 기업의 정보 업무가 마비되고 만다. 사람이 고지혈증 같은 것으로 쓰러지듯이 기업도 쓰러지는 국면으로 진입 가능하다. 그러므로 데이터 중복률을 자체적으로 계산해 본 적이 없다면 그 조직 데이터는 엉성하다는 또 다른 증거다. 위 두 가지 관점의 데이터 수준 평가는 조직 내 데이터 수준 전반을 점검해보자 할 때 적용할 수 있는 잣대이기도 하다. 기술적으로 정리하면 중복률은 최대 20%를 넘으면 데이터 설계는 엉망이라고 보면 된다. 그 선을 지키기 위해 데이터 표준형이 나온 지 벌써 60년이 됐다.
정부 주도로 클라우드 기반으로 전산 환경이 바뀌면서 데이터 재정비가 큰 숙제로 떠오르고 있다. 정부에 단일 통합데이터맵이 없는 까닭에 데이터를 클라우드로 있는 그대로 가져간다면 후폭풍을 감당할 길 없기 때문이다. 대구시만 예외적으로 모범 행보를 보이고 있다는 게 눈여겨볼 점이다. 대구시는 데이터 설계를 클라우드 시대에 걸맞게 다 뜯어고쳐야 한다는 생각으로 대대적인 작업 중이다.
쓸모없는 중복 데이터 과다 현상에 덧붙여 데이터 간 관계조차 제대로 파악되지 않아 데이터 오류가 빈번하다는 게 대구시 입장이다. 불필요한 데이터 제거가 최대 관건이라는 사실도 알고 있다. 대구시 디지털혁신관에 의하면 “지금 시스템은 구식 정보화 사업에 따른 거라 어떤 업체가 어떻게 설계했는지 모르는 경우가 많다”며 “클라우드 세상으로 넘어가기 전 선결과제는 대 시민 서비스 효율화를 할 수 있는 데이터품질 개선”이라며 데이터 개선에 대한 강한 의지를 밝혔다. 대구시와 다른 지자체가 달라야 할 이유는 없다. 정부나 다른 지자체는 대구시처럼 환경 변화에 호기심은 있는 시늉이라도 해야 하지 않겠나. 혁신을 DNA로 하는 디지털 정책을 다루는 고위직에 행정고시 출신들이 즐비한 것도 문제다. 왜 하필이면 행안부가 국가정보자원관리원을 관할 하에 두고 있을지 국민들은 이해하지 못한다. 재난 안전을 책임지는 부처 서열 때문일까. 구 시대 발상으로 행안부가 국가데이터 일체를 관리할 게 아니라 국가데이터 고위 책임자를 따로 두어 전문가로 하여금 국가데이터를 총괄하는 방향을 모색해야 할 것이다. 영국은 그렇게 해온 지 벌써 3년째다.
문송천 필자 이력
▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수