카카오 먹통되서 이게 뭔일이야.. 하고
클량을 들락날락 하길 몇시간.
저같은 일자무식도 슬슬 몇가지 용어만 이해하면 현 상황을 대충 판단할 수 있게 되었습니다.
즉, idc 화재로 인해서 전원이 차단된 시점에서 HA 이 무너지고, DR 이 되어서 Failover 가 진행되어야 하는데
제대로된 BCP 에 의한 DRP 가 진행이 안되어서 페일오버는 수행되지 않고.
현재 문제가 된 idc 전원이 복구되고, 기적처럼 전원을 요이땅~~!! 넣었을때, 모든게 제대로 잘 굴러가기를 바라고 있는 상황인거군요.
( 이정도면 제대로 용어 쓴게 맞나요? )
HA : High Availability 고가용성, 계속 잘 돌아가는거
DR : disaster recovery, 재난이 발생했을때, 복구하는 행위
DRP : disaster recovery plan, 재난 복구 계획
BCP : business continuity planning, DP 보다 폭넓은 개념으로, 비지니스를 해야할 회사라면 갖추고 있어야함.
으로 이해했습니다.
되게 쉽게 적어보면. BCP 가 제대로 안된거네요?
클량에서 BCP, DR 이야기가 많이 나오던데..
그리고 대표이사의 사과문을 보면, 뭐 준비가 다 되어있었다. 뭐 이런식으로 이야기가 나오던데..
설마 그건.. DR 이 같은 idc 에 구성이 되어있었다?? 근데 건물 전체 전원이 나가버려서 제대로 수행되지 않았다??
이건 아니겠죠? 요건 도저히 이해못하겠더라고요.
다음 뉴스 서비스가 이제 올라왔네요.
근데 네이버나 다른 회사들은 빠르게 대응한건 해당 idc 의 종속성의 문제일까요? 어렵군요.. 서버란..
DR의 전문적 깊이와 업무영역이 BCP를 압도하기 때문입니다.
DB들 무결성 검증도 해야하고, 복구하는데 사람이랑 시간이 좀 갈려나가겠네요
그때야 저는 담당자는 아니고 그냥 보조 수준이라.. 뭐 그냥 옆에서 벌벌 떨고 시키는 것만 하는 사람이긴 했는데.. 어휴.. 이번일은 진짜 내일 어떻게 결론 날런지..
그런 일이 생길 수도 있겠군요..
개별 서버의 장애에 대응하는 개념입니다.
24×356중 0.1프로면 8시간이나 되거든요
다른분들 글을 읽어보니, 결국 이론적으로 그런 시스템들을 잘 구축해도, 그게 100% 안전하게 이전이 된다는 보장도 없고, 현재 장애가 언제 끝날지 판단이 잘 안서니.. DR 로 넘어가던지 아니면 단순 장애로 버티던지.. 이런 판단을 잘해야 하는데, 이런쪽에서 뭔가 판단 미스라던지, 아님 기술적 문제로 제대로 처리하지 못한게 아닌가.. 로 이해하고 있습니다.
개념적으로 DR만 보면 그냥 타당하고 이걸 왜 못했어~~ 인데, 카카오처럼 수많은 서비스들이 연결되어있고 실시간으로 데이터가 입/출입 하고 있는 상황에서는 그걸 DR로 돌리는 것도 엄청난.. 리스크가 발생할 수 있으니 그냥 쉽게 생각해도 너무너무 어렵고 복잡한 문제겠네요..
생각해보니 진짜 연습 및 훈련을 해야겠네요.. 게다가 카카오는 은행이랑은 다르게 수많은 서비스와 형태로 주고받는거 까지 되니.. 이건 정말 전략 짜는거 자체가 상상 초월할 일이겠네요..