카톡 '먹통'에 행정지도 내린 정부...SK C&C·카카오 "책임 통감, 적극 반영하겠다"
2022-12-06 16:00
판교 데이터센터 배터리 모니터링 문제 지적...SK㈜ C&C "대응 시스템 보강할 것"
판교 집중이 카톡 장애 핵심 원인...카카오 "문제 해결, 인프라 투자 계획 내놓겠다"
판교 집중이 카톡 장애 핵심 원인...카카오 "문제 해결, 인프라 투자 계획 내놓겠다"
과학기술정보통신부가 방송통신위원회·소방청과 함께 SK㈜ C&C 판교 데이터센터 화재로 인해 촉발된 카카오톡 '먹통' 사태에 대한 조사 결과를 6일 발표했다. SK㈜ C&C와 카카오에 주요 사고원인에 대한 개선 조치와 향후 계획을 수립해 제출하라는 내용이 골자다.
조사에 따르면 SK㈜ C&C 판교 데이터센터는 배터리 온도 등을 모니터링하는 배터리 모니터링 시스템을 갖추고 있었으나, 화재 발생 직전까지 화재에 대한 이상징후는 관찰되지 않았다.
또, 화재 발생 후 가스 소화 장비가 작동했지만, 가스 소화가 어려운 리튬이온 배터리 화재 특성상 초기 진압에 한계가 있었다. SK㈜ C&C는 2016년 리튬이온 배터리 설치 후 화재 전까지 리튬이온 배터리에 특화된 방화조치도 하지 않았다.
SK㈜ C&C 판교 데이터센터는 리튬이온 배터리가 일부 UPS(무정전 전원 장치)와 완벽히 분리돼 있지 않아 배터리 화재 열기 등으로 인해 UPS 작동이 중지됐고, 일부 전원공급도 중단됐다. 이후 배터리 상단에 위치한 전력선이 화재로 인해 손상됐고, 화재 진압에 사용되는 물로 인한 누전 등 2차 피해 우려가 있어 데이터센터 전체 전력을 차단했다.
카카오톡, 카카오T 등 주요 서비스에서 최대 127시간 33분간 장애를 일으킨 카카오는 대부분의 서비스가 판교 데이터센터에 집중, 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받는 구조였다. 특히 서비스 구동 초기에 필요한 카카오인증 등 핵심 기능이 판교에 집중돼 있어 계열사 서비스에서 장애가 일어나는 단초가 됐다.
또, 서비스 기능을 5개의 '레이어(서비스 구역)'로 구분하고 판교 데이터센터(액티브 역할)와 다른 데이터센터 간 동작-대기(액티브 스탠바이) 체계로 시스템을 이중화했으나, 이번 사고에선 스탠바이 시스템이 그 역할을 제대로 하지 못했다.
이는 스탠바이 서버를 액티브 역할로 전환하기 위한 '운영 및 관리도구'가 판교 데이터센터에 이중화돼 있고 다른 데이터센터는 이중화돼 있지 않아 판교 데이터센터의 액티브 서버가 멈추면 장애 복구가 어려운 구조였던 데 따른 문제다.
과기정통부는 SK㈜ C&C에 △데이터센터 화재 예방·탐지 △데이터센터 전력공급 생존성 확보 등의 내용을 담은 행정지도를 내렸다. 카카오에는 △서비스 다중화 △재난대비 훈련 등 조치 △이용자 고지 및 피해 구제 등을 포함해 구체적인 대책을 마련하라고 지시했다.
SK㈜ C&C는 "배터리 모니터링 시스템을 포함해 다양한 화재 감지 및 대응 시스템 보강을 적극 검토하고 있고, 리튬이온 배터리 화재 대응을 위한 별도 장치와 재난 발생 구역의 전력 개별 차단 방안도 준비 중이다"며 "배터리실 전력선을 재배치하는 등 구조적 안정성을 확보했고 대형 화재 상황을 고려한 재난대응 시나리오와 세부 훈련 계획도 수립하고 있다"고 전했다,
카카오는 "7일 이프 카카오 행사를 통해 서비스 장애 원인을 분석하고 인프라 투자 계획 등을 담은 재발 방지 대책을 공개할 예정"이라며 "과기정통부의 시정 요구 사항 중 보강할 부분이 있다면 적극적으로 검토해 반영하겠다"고 밝혔다.