|
카카오가 지난 10월15일 판교 SK C&C 데이터센터 화재로 발생한 서비스 장애 원인에 대한 분석을 공유하고 개선에 대한 각오와 의지를 다졌다.
8일 카카오에 따르면 전날 개최된 개발자 컨퍼런스 '이프 카카오 데브 2022'(이하 이프 카카오)에서 회사는 판교 SK C&C 데이터센터 화재로 발생한 서비스 장애 원인을 분석하고 재발 방지 대책을 공개했다.
오는 9일까지 진행되는 이프 카카오는 올해 부족했던 부분을 돌아보고 기술로 더 나은 세상을 만들기 위해 다시 새롭게 나아간다는 데 중점을 뒀다는 게 회사의 설명이다.
남궁 비상대책위원회 재발방지대책 공동 소위원장은 ESG(환경·사회·지배구조) 최우선 과제를 '서비스의 안정적인 제공'으로 설정하고 인프라 개선을 위해 과거 원인 분석, 현재 재발방지책, 미래 투자 등 3가지 관점에서 실천과제를 세운다고 했다. 고우찬 재발방지 공동 소위원장을 필두로 인프라 조직을 대폭 강화, 안정적인 서비스 환경을 조성하겠다는 방침이다.
이확영 원인조사 소위원장(그렙 CEO)은 서비스 장애 원인을 객관적으로 분석하며 데이터센터와 운영 관리 도구들의 이중화 미흡, 가용 자원 부족 등을 주요 원인으로 꼽았다. 서비스 복구에 시간이 소요된 이유도 자세히 설명했다.
기술적 개선 사항 발표도 이어졌다. 이채영 재발방지대책소위원회 부위원장은 데이터센터 이중화, 데이터와 서비스 이중화, 플랫폼과 운영 도구 이중화 등 시스템 전체의 철저한 이중화를 적용하겠다고 했다. 모니터링 시스템 다중화, 데이터 다중 복제 구조 구성, 운영관리도구 삼중화 등도 구축할 계획이다.
고우찬 재발방지대책 공동 소위원장은 자체 데이터센터 방재 대책 및 향후 5년간의 IT 엔지니어링 혁신 방안을 발표했다. 총 4600억원의 예산을 투입해 시공하고 있는 안산 데이터센터의 운영 안정성, IT 엔지니어링 전담 조직 및 인재 확보, 비상대응계획과 데이터센터 DR 체계 구축 등에 대해 부연했다.