[카카오 대란] "재해복구 수준 IT 기업 미달"...10년 만에 또 동일 사고
2022-10-16 16:45
10년 전 4시간 장애 일으킨 것과 판박이...하루 지났음에도 정상화 요원
전문가 "네 단계 재해복구에서 3등급 수준 대응...문제 있다"
전문가 "네 단계 재해복구에서 3등급 수준 대응...문제 있다"
16일 카카오에 따르면 이번 화재로 인해 판교 데이터센터에 위치한 3만2000대의 서버가 멈췄으며, 전날 밤 11시부터 가산 데이터센터에서 재해복구 시스템을 가동해 이날 정오 기준 1만2000대 정도를 복구했다.
양현서 카카오 부사장은 "이번 화재로 카카오 서버가 대량 유실됐다. 현재 (판교, 가산, 평촌, 목동 등) 4개 데이터센터에 서버를 분산해 사용 중이고, 판교 데이터센터를 메인 센터로 쓰고 있는 상황이다"고 말했다.
이어 "장애가 일어나면 20분 내로 해결한다는 목표로 대응 중인데, 현재는 서버 손실량이 커 대처가 지연되고 있다. 앞으로는 서버 전체가 다운되는 상황까지 대비하고 재발 방지 대책을 강화하는 등 이용자 불편을 끼치는 일이 다시는 없도록 최선을 다하겠다"고 덧붙였다.
IT 업계에선 이번 카카오의 장애가 10년 전인 2012년 4월 28일 LG CNS 가산 데이터센터 전원 장치 이상으로 카카오톡, 카카오스토리 등 카카오 주력 서비스가 4시간가량 멈추는 사고를 일으켰을 때와 대처 면에서 다를 게 없다고 비판했다.
당시 카카오는 LG CNS 데이터센터에 이상이 일어나면 서비스가 멈추는 상황에서 재해복구를 위한 분산 운용을 하지 않았다는 지적을 받았다. 다만 장애 시간이 그리 길지 않았고 이동통신 3사 등과 메시지·음성통화 등을 두고 경쟁하는 측면을 인정받아 큰 비판 없이 넘어갔다.
하지만 10년이 흐르는 동안 기업 규모는 연결 매출 기준 130배 이상 성장하며 스타트업에서 대기업으로 커졌음에도 불구하고 재해복구 수준은 변한 게 없다는 비판이 이용자와 업계 사이에서 거세지고 있다. 심지어 이번 장애는 복구에만 10시간이 넘게 걸렸으며, 발생 하루가 지났음에도 대용량 파일을 전송할 수 없는 등 불안정한 모습을 보이고 있다.
전문가들은 카카오가 IT 대기업임에도 불구하고 재해복구 수준이 △미러사이트(1등급) △핫사이트(2등급) △웜사이트(3등급) △콜드사이트(4등급) 등 네 단계로 나뉜 시스템 중에서 최하에 가까운 웜사이트에 불과하다고 혹평했다.
미러사이트는 주 데이터센터와 복구용 데이터센터를 물리적으로 분리한 후 실시간으로 동기화해 운영하는 등급이다. 주 데이터센터에서 장애가 일어나면 즉시 복구용 데이터센터를 가동함으로써 서비스를 즉시 복구할 수 있다. 구글, 아마존, 마이크로소프트 등 글로벌 빅테크가 활용하는 방식으로, 국내에선 장애가 일어나면 안 되는 1금융 전산센터에 강제한다. IT 대기업은 주로 핫사이트급 시스템을 활용한다. 주 데이터센터와 복구용 데이터센터를 물리적으로 분리하는 것은 1등급과 같지만, 데이터를 주기적으로 동기화하는 방식으로 재해복구를 한다. 복구 시간은 몇 시간 안팎이다.
반면 IT와 거리가 있는 일반 기업은 웜사이트급 시스템을 적용한다. 중요성이 높은 데이터만 복구용 데이터센터로 보내고 다른 데이터는 하루 단위로 백업한다. 저렴하게 운영할 수 있지만, 복구에는 수일에서 수주가 걸린다. 현재 카카오의 상황이다.
카카오는 남궁훈·홍은택 카카오 각자대표 명의로 발표한 사과문을 통해 "모든 데이터를 국내 여러 데아터센터에 분할 백업하고 있고, 외부 상황에 따른 장애 대응을 위한 이원화 시스템을 가지고 있다"며 "화재 발생 직후 해당 사실을 인지하고 즉시 이원화 조치 적용을 시작했다"고 밝혔다.
하지만 이후 간담회에서 양현서 부사장은 "화재 현장에서 (카카오 엔지니어가) 직접 진입해서 시스템을 수리하거나 장애를 개선하는 데 물리적 한계가 있었다. 최대한의 위험 시나리오를 세우고 준비했다고 생각했지만, 화재는 워낙 예상할 수 없는 사고라 대비가 부족했다"고 말했다.