카카오의 현 사태를 이해하기 위해서 공부해봄. : 클리앙

f

모두의공원

카카오의 현 사태를 이해하기 위해서 공부해봄. 26

2

순순

6,009

2022-10-15 23:24:08 수정일 : 2022-10-15 23:24:31 175.♡.36.225

카카오 먹통되서 이게 뭔일이야.. 하고

클량을 들락날락 하길 몇시간.

저같은 일자무식도 슬슬 몇가지 용어만 이해하면 현 상황을 대충 판단할 수 있게 되었습니다.

즉, idc 화재로 인해서 전원이 차단된 시점에서 HA 이 무너지고, DR 이 되어서 Failover 가 진행되어야 하는데

제대로된 BCP 에 의한 DRP 가 진행이 안되어서 페일오버는 수행되지 않고.

현재 문제가 된 idc 전원이 복구되고, 기적처럼 전원을 요이땅~~!! 넣었을때, 모든게 제대로 잘 굴러가기를 바라고 있는 상황인거군요.

( 이정도면 제대로 용어 쓴게 맞나요? )

HA : High Availability 고가용성, 계속 잘 돌아가는거

DR : disaster recovery, 재난이 발생했을때, 복구하는 행위

DRP : disaster recovery plan, 재난 복구 계획

BCP : business continuity planning, DP 보다 폭넓은 개념으로, 비지니스를 해야할 회사라면 갖추고 있어야함.

으로 이해했습니다.

되게 쉽게 적어보면. BCP 가 제대로 안된거네요?

클량에서 BCP, DR 이야기가 많이 나오던데..

그리고 대표이사의 사과문을 보면, 뭐 준비가 다 되어있었다. 뭐 이런식으로 이야기가 나오던데..

설마 그건.. DR 이 같은 idc 에 구성이 되어있었다?? 근데 건물 전체 전원이 나가버려서 제대로 수행되지 않았다??

이건 아니겠죠? 요건 도저히 이해못하겠더라고요.

출처 : https://www.soonsoon.co/think/801/

순순 님의

댓글 • [26]

aiko

·

bcp 에서 dr전환은 결정권자가 재해선언을 해야 진행하는거지 자동전환이 아닙니다. 전환하는건 리스크가 크니까 그냥 버티다가 불이꺼지고 바로 전원넣고 살리면되겠지? 선택한건데 불꺼도 소방쪽이 못들어가 ㅗ 하니까 이제선언하고 서비스 딴데서 살리는거에요

다음 뉴스 서비스가 이제 올라왔네요.

순순

·

@님 아하! 그럼 그 전환시, 결정권자의 지시 판단이나, 시간등도 중요한 요소가 되겠군요.

그대로멈춰라

·

@님 당연히 불났으면 다른 것에서 살리는 작업을 지시해야지 버티자로 결정한건 ㅠㅠ 그냥 대책이 없다고 봐야죠

순순

·

@그대로멈춰라님 ㅠㅠ

1qb4

·

@그대로멈춰라님 불이 서버실에서 난게 아니라 전원만 들어오면 서버는 다시 켜면 되겠지 라는 생각이였지 않나 싶네요. 근데 건물 전원도 늦게 들어오고 서버실에 출입도 늦게되어서 계속 늦어지는걸로 (알려진 내용들로 유추해보면) 보이네요. 그러면서 결정은 늦어졌겠죠.

순순

·

@1QB4님 아이고 ㅠㅠ 나중에 좀 더 자세한 조사결과가 나오면 자세히 봐야겠네요.

그대로멈춰라

·

대표 사과문을 쉽게 이야기하면 idc 뻗었을 때 대책은 없다는 이야기를 빙빙 돌려서 이야기하더군요.

순순

·

@그대로멈춰라님 아... 그냥 중간 장애가 있거나, 아님 idc 의 일부 장애가 있거나.. 네트워크 문제가 있거나.. 뭐 이런건 준비를 했는데, 이건 예상을 못했네? 이런건가..

그대로멈춰라

·

@순순님 그렇지요. idc 완전뻗었을 때의 시나리오는 없었다라고 읽혀졌습니다.

삭제 되었습니다.

순순

·

@써바이님 오.. 감사합니다. 검색 ㄱㄱ 합니다.

삭제 되었습니다.

순순

·

@비스리님 아이고.. 진짜라면.. 진짜 ㅠㅠ 안타깝네요.

근데 네이버나 다른 회사들은 빠르게 대응한건 해당 idc 의 종속성의 문제일까요? 어렵군요.. 서버란..

Mishkin

·

통상 IT 기반 회사의 BCP 범위에서는 DR을 제외합니다.
DR의 전문적 깊이와 업무영역이 BCP를 압도하기 때문입니다.

순순

·

@님 그렇군요.. 또 그건 다른 접근이군요.

회사가기싫어

·

전원 갑자기 내려간거 같은데 DB계열 그중에서도 In-Memory Database계열들이 어떻게 되었을지 모르겠네요.
DB들 무결성 검증도 해야하고, 복구하는데 사람이랑 시간이 좀 갈려나가겠네요

순순

·

@회사가기싫어님 저도 예전에 서버실에서 근무한 적이 있어서, 유사 경험이 있어서 진짜.. 아까 그런 시나리오 글 들 읽는데 막 소름 돋고 그러더라고요..

그때야 저는 담당자는 아니고 그냥 보조 수준이라.. 뭐 그냥 옆에서 벌벌 떨고 시키는 것만 하는 사람이긴 했는데.. 어휴.. 이번일은 진짜 내일 어떻게 결론 날런지..

회사가기싫어

·

@순순님 저도 직업이 DB쟁이라서 전원 갑자기 떨어지면 어떤일이 벌어질지 대충 시나리오가 그려지는데, 미션크리티컬한 장비들이 단체로 떨어지면 그냥 퇴사하고 싶어질거같습니다 ;;

순순

·

@회사가기싫어님 후.. 거의 20년적 기억이라 정확하진 않는데 일하는 곳에 무슨 오라클 db 서버 겁나 무식한게 있엇는데 어느날 갑자기 정전이 되서 ups 가 가동이 되어야 하는데, ups 가 제대로 가동이 안되어서 셧다운이 되고, 담당자가 키다가 어디에선가 멈춰서 하루종일 대기하다가.. 얼굴 하예지고 뭔가 전문업체 불러서 복구했던 기억이 납니다.

그런 일이 생길 수도 있겠군요..

맑은마음푸른날개

·

@회사가기싫어님 아마 정합성은 깨졌겠지만 비휘발성 저장장치에 남아있을거에요. 그리고 메모리 디비는 대부분 2차 가공이라 다시 복구하면 됩니다

HeeYa

·

HA는 재해와는 관련 없습니다.
개별 서버의 장애에 대응하는 개념입니다.

순순

·

@HeeYa님 아하 그렇군요 흔히 말하는 SLA 99.9% 뭐 이런건가보죠?

HeeYa

·

@순순님 SLA 99.9%는 1년 중 99.9%의 시간을 동작하게 보장하는거라 꽤 널널한 기준입니다.
24×356중 0.1프로면 8시간이나 되거든요

순순

·

@HeeYa님 오호. 그럼 99.99% 뭐 이정도는 되야겠군요. 1년 기준이구나..

HeeYa

·

@순순님 네 그리고 계획된 작업이나 준비된 중단계획은 포함하지 않은 기준이지요.

순순

·

@HeeYa님 아하, 그래서 가끔 AWS 나 Azure 나 막 중단되고 안되도 99.99% 다 이렇게 홍보하고 그래도 되는건가보죠?

삭제 되었습니다.

순순

·

@비스리님 자세히 알려주셔서 감사합니다.

다른분들 글을 읽어보니, 결국 이론적으로 그런 시스템들을 잘 구축해도, 그게 100% 안전하게 이전이 된다는 보장도 없고, 현재 장애가 언제 끝날지 판단이 잘 안서니.. DR 로 넘어가던지 아니면 단순 장애로 버티던지.. 이런 판단을 잘해야 하는데, 이런쪽에서 뭔가 판단 미스라던지, 아님 기술적 문제로 제대로 처리하지 못한게 아닌가.. 로 이해하고 있습니다.

개념적으로 DR만 보면 그냥 타당하고 이걸 왜 못했어~~ 인데, 카카오처럼 수많은 서비스들이 연결되어있고 실시간으로 데이터가 입/출입 하고 있는 상황에서는 그걸 DR로 돌리는 것도 엄청난.. 리스크가 발생할 수 있으니 그냥 쉽게 생각해도 너무너무 어렵고 복잡한 문제겠네요..

삭제 되었습니다.

순순

·

@비스리님 와.. 군대의 준비태세 같은거군요..

생각해보니 진짜 연습 및 훈련을 해야겠네요.. 게다가 카카오는 은행이랑은 다르게 수많은 서비스와 형태로 주고받는거 까지 되니.. 이건 정말 전략 짜는거 자체가 상상 초월할 일이겠네요..

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책

© • CLIEN.NET