요즘 데이터가 무엇보다 중요한 자산이라고는 하지만 IT 강국이라는 우리나라 데이터 환경의 이면을 들여다보면 여전히 갈 길이 멀다는 평가가 지배적이다. 최근에는 국가행정전산망이 마비되는 사태가 예고도 없이 발생했다. 말이 국가행정전산망이지 국가 전산시스템이라고 부르는 게 더 적절할 만큼 종전 수작업을 기계로 자동화한 사무자동화 체계를 의미한다. 컴퓨터 망을 가리키는 낮은 수준이 아니다. 육법전서를 방불케 하는 이런 소프트웨어 체계의 가장 기초가 되는 것은 다름아닌 바로 데이터다. 소프트웨어란 컴퓨터 언어로 표현된 기계 명령이지만 명령이란 존재는 데이터라는 먹이 없이는 무용지물이기 때문이다. 따라서 명령보다도 더 기초가 되는 것이 데이터다. 컴퓨터 시스템이 작동되다가 먹통이 되는 이유는 여럿이지만 데이터 잘못인 경우가 많은 것도 그래서다. 하드웨어 잘못으로 서는 일은 거의 없다. 현대 사회에서 대부분의 업무는 정보시스템에 의존적이다. 시스템이 장애를 일으키면 작업이 중단되어 난리가 나게 마련이다. 그럴 때마다 정보시스템 운영 주체는 비난을 받는다. 이런 일은 끝없이 반복된다. 무장애 시스템은 마치 존재하지 않는 것처럼 보인다. 기술의 장애는 불가피하다는 생각이 지배적이다. 시스템 운영 주체에 대한 비난은 그래서 그냥 화풀이에 불과할 수도 있다.
데이터라고 하면 눈에 보이는 것은 아무거나 다 데이터인 것으로 착각할 수 있지만 사실은 데이터가 뭔지도 모르고 데이터라고 하는 이들이 많은 게 사실이다. 데이터를 제작할 때 가장 중요한 첫 단추는 데이터들이 돌아다닐 수 있도록 만드는 데이터 경로를 잘 설계하는 일이다. 이것은 마치 자동차가 잘 다닐 수 있게 도로교통지도를 만드는 일과 같다. 따라서 데이터 부분에서 장애가 일어나는 경우의 대부분은 데이터 경로가 잘못 설계되어 데이터를 찾아가던 도중 길이 막혀서 더 이상 진행하지 못하고 그 지점에서 시스템이 자동 정지되는 경우다. 데이터라는 걸 한마디로 딱 알아듣기 쉽게 설명한다고 하면 음식을 만들 때 사용하는 식재료에 해당한다. 그 식재료를 써서 완제품 요리를 만드는 것이 데이터 가공 과정이고 그건 컴퓨터 명령의 몫이다. 생선으로 말하면 횟감, 그게 바로 데이터다. 횟감이 튀겨지고 프라이팬에 요리되고 지지고 볶는 요리 과정을 거치면 그건 데이터가 아니고 정보라고 부르기 시작한다. 데이터라는 말을 굳이 쓰는 이유는 데이터가 다른 어느 것, 즉 정보 첩보 지식 보다도 원초이기 때문이다. 정보처럼 가공된 것은 데이터가 아니다. 횟감에서 파생되는 존재일 뿐이다. 그래서 횟감들 간의 관계를 정교하게 분석하지 않은 상태로는 데이터다운 데이터가 들어있지 않은 엉터리일 뿐이다.
클라우드(CLOUD)의 CL이 클래스, 데이터의 품격을 가리키는 것도 그런 연유다. 데이터의 품격을 지키라는 말은 품질 좋은 데이터 아니면 데이터로는 결격이라는 뜻이다. 그러니까 식재료인지 아니면 완제품 나오기 전 중간 상태의 요리인지 아니면 완제품인지 잘 분간할 줄 아는 지식이 필요하다. 사실 식재료 같은 경우에도 원재료가 굉장히 싱싱하고 좋으면 요리사가 초보라고 하더라도 요리가 맛있지 않은가. 우리 사회 전반의 공공 데이터 환경에서 데이터의 가장 큰 문제점은 품질 좋은 데이터만을 한눈에 볼 수 있게 하는 전체 데이터지도 한 페이지를 애초부터 제작해 놓지 않는다는 점이다. 데이터지도가 수백 수천 가지 조각으로 파편화되는 경우에는 데이터 간 충돌이 심해 불필요한 중복이 많아지고 누더기 덩어리처럼 처치 곤란한 상황으로 빠지게 된다. 그러니까 데이터지도란 한마디로 전국도로교통지도에 해당하는 것이다. 전국도로교통지도 없이 차 운전이 가능한가. 그런 데이터지도란 존재를 회사 내에서 본 적이 없다면 그 회사는 데이터 관리가 아예 안되고 있다고 보면 정확하다.
데이터 실력이 어느 수준인지는 다음 두 가지 질문으로 냉정하게 판가름 난다. 첫째는 데이터 개수가 과연 몇 개인가다. 데이터 볼륨이 아니고 성명, 주소, 연령 같은 데이터 이름의 개수를 얘기하는 걸 말한다. 그러므로 데이터 개수를 모른다면 그 조직 데이터는 엉성하게 설계돼 있다는 증거다. 그 다음에 던져야 할 질문은 데이터 중복률 산정이다. 우리가 인체에 불필요한 지방이 너무 많이 쌓이면 체지방률이 높아지듯이 데이터 지방률, 즉 데이터 비만도가 높으면 그 기업의 정보 업무가 마비되고 만다. 사람이 고지혈증 같은 것으로 쓰러지듯이 기업도 쓰러지는 국면으로 진입 가능하다. 그러므로 데이터 중복률을 자체적으로 계산해 본 적이 없다면 그 조직 데이터는 엉성하다는 또 다른 증거다. 위 두 가지 관점의 데이터 수준 평가는 조직 내 데이터 수준 전반을 점검해보자 할 때 적용할 수 있는 잣대이기도 하다. 기술적으로 정리하면 중복률은 최대 20%를 넘으면 데이터 설계는 엉망이라고 보면 된다. 그 선을 지키기 위해 데이터 표준형이 나온 지 벌써 60년이 됐다.
그럼에도 불구하고 표준화 이론을 무시하고 주먹구구식으로 정부 시스템이 구성돼 있는 게 문제다. 정부에 데이터지도가 없다는 말이 이제 이해가 될 것이다. 그러나 이걸 전문가 아닌 국민들이 알 도리가 없다. 그래서 과거에는 설령 속여도 그만이었다. 데이터 품질을 안 지키면 별의별 불상사가 다 일어날 수가 있다. 숨어있던 문제들이 수면 위로 올라와서 이번 행안부 사태처럼 큰 사고로 터져야 비로소 실체가 외부로 드러난다. 그래도 정부는 이번 사태처럼 어떻게 데이터 품질을 개선해야 하는지 모른 채 시간만 보내고 있다.
정부 주도로 클라우드 기반으로 전산 환경이 바뀌면서 데이터 재정비가 큰 숙제로 떠오르고 있다. 정부에 단일 통합데이터맵이 없는 까닭에 데이터를 클라우드로 있는 그대로 가져간다면 후폭풍을 감당할 길 없기 때문이다. 대구시만 예외적으로 모범 행보를 보이고 있다는 게 눈여겨볼 점이다. 대구시는 데이터 설계를 클라우드 시대에 걸맞게 다 뜯어고쳐야 한다는 생각으로 대대적인 작업 중이다.
쓸모없는 중복 데이터 과다 현상에 덧붙여 데이터 간 관계조차 제대로 파악되지 않아 데이터 오류가 빈번하다는 게 대구시 입장이다. 불필요한 데이터 제거가 최대 관건이라는 사실도 알고 있다. 대구시 디지털혁신관에 의하면 “지금 시스템은 구식 정보화 사업에 따른 거라 어떤 업체가 어떻게 설계했는지 모르는 경우가 많다”며 “클라우드 세상으로 넘어가기 전 선결과제는 대 시민 서비스 효율화를 할 수 있는 데이터품질 개선”이라며 데이터 개선에 대한 강한 의지를 밝혔다. 대구시와 다른 지자체가 달라야 할 이유는 없다. 정부나 다른 지자체는 대구시처럼 환경 변화에 호기심은 있는 시늉이라도 해야 하지 않겠나. 혁신을 DNA로 하는 디지털 정책을 다루는 고위직에 행정고시 출신들이 즐비한 것도 문제다. 왜 하필이면 행안부가 국가정보자원관리원을 관할 하에 두고 있을지 국민들은 이해하지 못한다. 재난 안전을 책임지는 부처 서열 때문일까. 구 시대 발상으로 행안부가 국가데이터 일체를 관리할 게 아니라 국가데이터 고위 책임자를 따로 두어 전문가로 하여금 국가데이터를 총괄하는 방향을 모색해야 할 것이다. 영국은 그렇게 해온 지 벌써 3년째다.
문송천 필자 이력
▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수