[현장에서] 남궁훈 위원장이 예고한 카카오 대란 '실수 부검'을 기다리며
2022-10-25 18:30
불은 건물 지하 3층 전기실 무정전 전원장치(UPS) 리튬 이온 배터리에서 시작돼 이곳 천장에 옮겨붙었다. SK㈜ C&C에 따르면 불을 끄기 위해 물을 뿌려야 한다는 소방 당국 요청에 따라 데이터센터 전체 전원을 차단한 시점이 화재 발생 당일 오후 4시 52분이다. 그런데 데이터센터 전체 전원이 차단되기 1시간 20분 전부터 카카오 서버는 제 기능을 못 했다. 사람들이 카카오 서비스에 문제가 생겼다고 인지한 시점이 대략 오후 3시 30분께다. 천장에 카카오 서버로 연결된 주 전원선이 있었고 이게 타면서 카카오 서버 수천대가 다운됐다는 게 카카오 측 설명이다.
카카오는 지난 17일 포털 다음 메일과 티스토리, 톡채널, 카카오페이 등 일부를 제외한 주요 카카오 서비스를 복구했다. 이후 19일 나머지 서비스를 복구하고 안정화 단계에 들어갔다고 밝혔다. 이날 카카오가 연 긴급 기자회견에서 카카오는 이전까지 여러 데이터센터 중 한 곳이 한순간에 중단될 가능성을 고려하지 않았다는 점이 확인됐다. 서비스 장애 사태와 관련해 '위기 상황 대처 미숙'에 대한 책임을 지고 대표이사·사내이사 자리에서 물러난 남궁훈 전 대표는 비상대책위원회 재난대책 소위원회 위원장으로서 이런 사건이 재발하지 않도록 한다고 했다.
남궁 위원장 발언 가운데 눈길을 끄는 것은 "카카오의 재발방지뿐 아니라 대한민국 IT업계에 이러한 불행이 재발하지 않도록 사례를 투명하게 공유하는 역할까지 하고자 한다"는 언급과 "데이터센터는 무엇을 해야 하고, 데이터센터의 소방 관제는 어떻게 해야 하며, (카카오 데이터센터) 복구 시스템은 어떻게 잘못 구성하였고, 어떻게 구성되어야 이상적일 것으로 판단하는지를 이번 기회를 통해 처절하게 반성하고 사회에 공유"하겠다는 부분이다. 남궁 위원장은 올해 개최할 연례 개발자 콘퍼런스 'if kakao' 세션을 통해 이 내용을 공유하겠다고 했다.
직접적으로 언급되지 않았지만, 이것은 이번 카카오 장애 사태에 대해 IT 업계에서 '포스트모템(Postmortem)'이라 불리는 형식의 기술적인 사후 분석을 수행해 외부에 공개하겠다는 예고다. 포스트모템의 사전적 의미는 "사인을 판정하기 위한 시신 검사", 즉 부검(檢屍)이다. IT 업계에서 얘기하는 포스트모템은 운영 중인 서비스에서 대규모 장애(outage)가 발생했을 때 이를 수습(정상화)한 다음, 이와 관련된 일들이 '어떻게, 왜 벌어졌는지'를 단계마다 되짚어 보고 문제 해결을 위해 '잘한 일'과 '잘못 한 일'을 포함한 주요 인과관계를 설명하는 '장애 회고' 또는 그 내용을 담은 장애 분석 보고서를 뜻한다.
전 세계 이용자를 대상으로 거대 디지털 서비스를 운영하는 구글, 넷플릭스, 아마존, 메타(전 페이스북) 등 유명 실리콘밸리 기업들은 대규모 장애 사건 직후 포스트모템을 시행하고 기술 블로그를 통해 그 '일부 내용'을 외부에 공개한 사례가 있다. 국내에서도 많은 사람이 이용하는 디지털 서비스에 장애가 발생했을 때 운영사 차원에서 장애 보고서를 작성한다. 하지만 IT 기업이 외부에 공개한 장애 보고서 내용은 대부분 단편적인 장애 원인과 조치 명세를 제시하고 사과를 곁들인 개선 의지를 밝히는 수준에 그친다. 장애를 일으킨 쪽에 불리한 내용을 낱낱이 드러내진 않는다.
그런데 남궁 위원장은 카카오에서 공개될 내용에 대해 "우리뿐 아니라 업계 전체의 재발을 방지하려면 스스로 치부를 드러내야 할 수도 있다"면서 "향후 있을 if kakao를 통해 공유 세션을 만들고 '만일 카카오가 이랬더라면' 벌어지지 않았을 상황을 알리도록 하겠다"고 했다. 이번 서비스 장애 사태에서 '이건 우리 실수, 카카오가 잘못 한 일'이라고 인정한 내용을 포함한 사고 대응 사례를 공개하겠다는 선언이다. 이는 카카오가 그간 IT 기업들이 공개한 대다수 장애 보고서처럼 자사에 불리한 내용을 '적당히 일부만' 공개하는 데 그치진 않을 것을 짐작케 하는 대목이다.
IT 업계에서 포스트모템을 비롯한 장애 회고 방법론을 설명하는 여러 조언을 보면 '책임자를 문책하지 말라'는 당부가 빠지지 않는다. 잘못을 찾다 보면 실수·오판을 저지른 사람과 부서를 비난하기 쉽고, 담당자가 이걸 의식해 잘못을 숨기려 한다면 본질적인 문제 원인과 해법을 도출할 수 없게 되기 때문이다. 디지털 기업의 조직문화는 흔히 자유롭고 개방적인 것으로 알려졌지만, 재발 방지 방안을 마련하기 위해 이번 장애 발생 배경과 대응 과정 전말을 정리하는 과정은 굳이 외부에 공개할 것을 전제하지 않더라도 카카오처럼 규모가 큰 기업의 조직문화에 큰 도전이 될 것이다.
대형 서비스 '배달의민족'을 운영하는 우아한형제들도 기술 블로그에 회사의 장애 대응 방법론을 설명한 글에서 "장애가 발생한 도메인 담당자 입장에서는 미안한 마음이 들어서, 리뷰를 진행하면서 물어보는 입장에서는 혹시 불편해하지 않을까 고민이 되기 때문에" 터놓고 얘기하기가 어렵다는 점을 인정했다. 하지만 같은 글에서 감추고 숨기기보다 해결하기 위해 함께 고민하는 것이 장애 대응의 핵심이고 이것이 가능해야 건강한 조직이라고 강조했다. 카카오가 IT 업계 종사자들에게 구체적이고 설득력 있는 포스트모템 보고서를 공개하길 기대한다.