dr 로 전환판단을 내려줘야하는데 피해분석과 상황분석이 안되면 이거부터가 홀딩입니다(보통 c레벨이나 it쪽 최상위직급자가 소집권한을 가지고 의사결정을 합니다)
기존 사례들도 여기서 시간 잡아먹다가 dr올리기보단 재해선언안하고 장애건으로 간주하고 주센터복구로 해결합니다 dr 이 말처럼 올리면 서비스 되는게 아니거든요
그 수많은 금융권장애가 있는데 국내 금융권 dr 실전환 사례가 손가락 10개로 다 셀수있습니다.(한손 5개로도 다셀수있을지도...) 그만큼 리스크 크고 쉬운거아닙니다. 금융도 이정돈데 그이하는 dr은그냥 우리 dr로 데이터는 안날릴자신있어요로 보는게 맞습니다.. 물론 꿈은 크게가져야죠...
심지어 bcp상 계획은 안정화 이후 주센터복귀인데 이것도 리스크라 그냥 dr센터에 눌러앉기도합니다. 그만큼 어디가꼬일지 모르는거라 그냥 버티는게 나은선택일수도 있습니다. 단순 web was들만이면 아무런 상관이 없지만요
삭제 되었습니다.
삭제 되었습니다.
Lightuser
IP 219.♡.196.254
10-15
2022-10-15 23:36:20
·
@님 롤백이라도 어느 시점으로 되면 좋은데, 날리면 되었다면 큰일이죠.ㄷㄷ
IP 118.♡.7.136
10-16
2022-10-16 00:00:14
·
@님 글구보니 예전에 파일서버 정합성이 안 맞아서 메일에서 파일 첨부 장애 났었다는 예기를 들은 적이 있네요. 크고 작은 사고가 계속 나네요.
@빙빙이님 카카오가 글로벌 기업이 아니라서 국내 포털가 비교하시면 그렇게 말씀 하실 수 있지만, 그래도 한국 IT 강국이다 하는데... 부끄럽긴하쥬... 그리고 왜 못하는 국내 기업들과 비교하나요... 잘하는 글로벌 기업들도 많을텐데... 내 주변 친구들도 공부 못하니, 나도 못해도 된다는 논리랑 비슷한듯요.
arcenciel
IP 211.♡.211.218
10-15
2022-10-15 23:39:11
·
상장해서 돈벌 궁리만 하는데 재해복구같은 현재 돈 못벌고 돈만 먹는 곳에 제대로 투자할리가요
kabaneri
IP 220.♡.215.55
10-15
2022-10-15 23:40:40
·
뭐랄까 이런저런 이유로 서버가 셧다운된 시점의 데이터와 뭐 어딘가 있을(지 없을지 모르는) 2차 3차 미러링 사이트 또는 백업 데이터와의 정합성을 아무도 보장하지 않을 겁니다 무리해서 DR 가동하거나 어딘가 있을(지도 모르는) HA 가동시키고 "님들아 서비스 가동됐어염~" 했을때 데이터가 꼬여있다면? 차라리 서비스가 멈춰있는게 데이터 정합성 유지 측면으로 볼 때 더 유리하죠
카카오가 싫건 좋건 다 떠나서 동종업계 종사자였던 사람으로 그저 안타까울 뿐입니다
3450
IP 223.♡.91.209
10-15
2022-10-15 23:52:25
·
@kabaneri님 음.. 카카오 서비스들 특성상 이정도 규모와 딜레이타임을 고려했을때 메인 idc 살아나도 데이터 정합성 문제는 똑같이 발생하지 않나요. 셧다운 이후로 전송된 실시간 데이터들은 이미 많이 분실됐을테니까요.
예를 들어 카카오 택시를 탑승중이었던 손님은 이미 현금으로 지불하고 내렸을텐데 그 데이터는 읽혀오지 않았고 이승객이 아직 타고 있는지 정상적으로 내렸는지 결제는 어떻게 됐는지 알수 없기 때문에 오픈해도 정합성 문제는 동일하게 있는거죠
푸른미르
IP 14.♡.186.98
10-15
2022-10-15 23:42:42
·
이런 문제는 보통 DR센터나 DR담당자 선에서 끝나는게 아니라 CIO나 그 윗선의 문제죠 DR센터나 DR담당자야 보고를 했었도 위에서 자원을 안내려주면 아무것도 할 게 없죠
파키케팔로
IP 106.♡.195.71
10-15
2022-10-15 23:44:08
·
다음 바이든 된건가요?
쿠오쿠오
IP 222.♡.148.234
10-15
2022-10-15 23:44:21
·
일단.카카오가 dr처리를 어떻게 하고있었는지 발표하기 전엔 왜 못하고 안했냐고 대뜸 욕할만큼 쉬운건 아닙니다.
이정도급 사태에서 카카오가 구라를 칠수는.없을거고 정부랑 합동조사에서 오래걸린 원인같은게 나중에 발표가 나올테니 그때 카카오가 어처구니 없는 판단들을 한게 있다면 그때가서 더 시원하게 까도 된다고 봅니다.
morus
IP 121.♡.11.224
10-15
2022-10-15 23:46:06
·
윗분들 말대로 DR의 개념을 재대로 도입해서 사용하는 기업이 얼마나 될지 의문이긴 합니다. 대부분은 그냥 원격지에 백업데이타를 보관하는 정도 수준이 현실이지 않을까 싶습니다.
예리남편
IP 213.♡.196.153
10-15
2022-10-15 23:46:33
·
Dr로 넘어가면 복구는 될지몰라도 그 뒷감당이 쉽지 않죠. 사후처리때 db 다시 이전하고 난리 나거든요.
왜 저는 DR 이라는 큼직한 느낌보다는 오래전에 구축한 DB나 서비스에 관리되지 않던 부분이 있지 않았을까 하는 생각이 더 들까요? 예를 들어.. 간당간당한 DB서버가 있었는데.. 미쳐 대개체를 못했던게 있거나.. 전체 서비스 재 시작을 해본적이 없으니.. 실제로 해보니 뭔가 시퀀스가 필요한데.. 해보니~~ 오 이상한데. 왜 안돼~? 소스코드에 IP address 가 박혀 있었거나.. 다른 서버로 넘겨도 안되네??
HA(Active-Active) 형태로 소산서비스 구성이 사전에 없었다면...그렇다고 모든 서비스를? 암튼... 고생이 많을듯 하네요.. 이정도 시간이 지나가서 안되는거면.. 정말 오래 걸릴지도~~
자두맛
IP 39.♡.20.65
10-15
2022-10-15 23:47:19
·
카뱅은 정부에서 강제를 했으니, 지금상황에서 유일하게 살아남은 이유
오펜하이머
IP 223.♡.34.237
10-15
2022-10-15 23:54:00
·
누가 껌씹듯이 DR 잘 대응할지 궁금하네요.
viatoris
IP 115.♡.48.141
10-16
2022-10-16 00:06:01
·
카카오가 아마 오픈소스 기반 db와 오라클을 이용하는 것으로 알고 있고.. 오라클은 제3자 유지보수를 하는 것으로 압니다.
월요일쯤 되서 관계자들 입소문이 돌면 대체적인 윤곽을 루머로 들을 수 있을거 같긴 한데.. 언뜻 드는 생각은 그쪽 역량이 떨어지는 것일수도 있겠네요.
ups 화재만 생각하기엔 너무 오래 지속되고 있는데.. 정합성 걱정 때문에 DR 못돌리는게 아닐까 추측들 하시지만 정합성은 이미 깨진 상태일수도 있습니다.
@맑은마음푸른날개님 같은 데이터센터 쓰던 네이버는 특정 서비스만으로 분산시켜서 피해 최소화할수 있게 설계해놨고 심지어 데이터센터 운영사인 sk의 타계열사 서비스들도 별다른 타격없는 상황에서 카카오 혼자 주요 서비스 전부 먹통인 상황인데... 과연 문제가 없는걸까요
맑은마음푸른날개
IP 121.♡.46.111
10-16
2022-10-16 11:01:11
·
@3450님 다른 회사들이 잘했다기 보다는 다른회사들은 메인 IDC가 거기가 아니였고, 카카오가 메인중 하나가 거기였던것 같은데요? . 네이버도 일시적으로 장애가 있었고, sk도 일부 서비스 장애가 있어요. 대외 서비스가 아니였을뿐.. 다른 회사들도 주요한 IDC 가 이런장애 발생하면 똑같을겁니다.
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg 지나치게 큰 이미지의 크기는 조정될 수 있습니다.
1. 무능력한 DR 담당조직 2. 전반적인 개발역량 부족 3. 기술부채가 감당 안될정도로 너무 쌓인상태
셋중 모가 됐건 1~2년 운영해온 서비스도 아닌 상황에서 전적인 책임은 DR 조직이 가져가는게 맞아보여서 한심하게 느껴지네요
규제가 가장 심한 증권사와 은행도 이정도는 못해요.
서비스 장애를 각오히고 실전 훈련을 해봐야하는데 그걸 해주는 회사는 하나도 없습니다.
금융권도 비업무 시간인 주말이나 연휴에나 하지요
1. 준비 안함
2. 준비 했지만 같은 건물안에 다른 서버...ㅎㅎㅎㅎ
물리 적인 서버가 한곳에 있어서 그런데.... 보통 이중화서버를 다른 건물에 둬야 할 것 같다고 생각하고
그렇게 하고 있을 것 같아요...
해당 건물 정전/네트웍이 안되는 정도는 누구나 생각해보고 준비가능하다고 봅니다.
실제 AWS 한국 리전이 통째로 죽었을때도 일본 리전으로 fail-over 해서 장애 시간 몇 분 단위로 넘긴케이스도 있구요.
카카오 입사 러쉬 할때는, 고액 연봉 받는다고들 해서 솔직히 많이 부러웠는데요,
요즘 보면 안타깝네요.
회사에 대한 비난은 모르겠으니 직원들에게 대해서도 이런 근거없는 비난을 해야 하는건가 싶네요
뱅크서비스 장애 발생 후 다시 복구시켜놓은거보면 카카오뱅크 살리는데 몰빵한거 아닌가 싶기도 하고 말이지요.
그리고 카뱅은 상암에 있어서 다른 데이터센터입니다.
기존 사례들도 여기서 시간 잡아먹다가 dr올리기보단 재해선언안하고 장애건으로 간주하고 주센터복구로 해결합니다 dr 이 말처럼 올리면 서비스 되는게 아니거든요
그 수많은 금융권장애가 있는데 국내 금융권 dr 실전환 사례가 손가락 10개로 다 셀수있습니다.(한손 5개로도 다셀수있을지도...) 그만큼 리스크 크고 쉬운거아닙니다. 금융도 이정돈데 그이하는 dr은그냥 우리 dr로 데이터는 안날릴자신있어요로 보는게 맞습니다.. 물론 꿈은 크게가져야죠...
심지어 bcp상 계획은 안정화 이후 주센터복귀인데 이것도 리스크라 그냥 dr센터에 눌러앉기도합니다. 그만큼 어디가꼬일지 모르는거라 그냥 버티는게 나은선택일수도 있습니다. 단순 web was들만이면 아무런 상관이 없지만요
롤백이라도 어느 시점으로 되면 좋은데, 날리면 되었다면 큰일이죠.ㄷㄷ
크고 작은 사고가 계속 나네요.
그리고 그거 껌씹듯이 잘하는 기업도 솔직히 잘 없을걸요.
말이 쉽지. 절대 쉬운게 아니에요.
무슨 개인이 나스 운용하듯이 할수 있는게 아니에요.
/ in mobile
돈 아까워서 안했겠죠.
그리고 왜 못하는 국내 기업들과 비교하나요... 잘하는 글로벌 기업들도 많을텐데...
내 주변 친구들도 공부 못하니, 나도 못해도 된다는 논리랑 비슷한듯요.
뭐 어딘가 있을(지 없을지 모르는) 2차 3차 미러링 사이트 또는 백업 데이터와의 정합성을
아무도 보장하지 않을 겁니다
무리해서 DR 가동하거나 어딘가 있을(지도 모르는) HA 가동시키고 "님들아 서비스 가동됐어염~" 했을때 데이터가 꼬여있다면?
차라리 서비스가 멈춰있는게 데이터 정합성 유지 측면으로 볼 때 더 유리하죠
카카오가 싫건 좋건 다 떠나서 동종업계 종사자였던 사람으로 그저 안타까울 뿐입니다
예를 들어 카카오 택시를 탑승중이었던 손님은 이미 현금으로 지불하고 내렸을텐데 그 데이터는 읽혀오지 않았고 이승객이 아직 타고 있는지 정상적으로 내렸는지 결제는 어떻게 됐는지 알수 없기 때문에 오픈해도 정합성 문제는 동일하게 있는거죠
DR센터나 DR담당자야 보고를 했었도 위에서 자원을 안내려주면 아무것도 할 게 없죠
이정도급 사태에서 카카오가 구라를 칠수는.없을거고 정부랑 합동조사에서 오래걸린 원인같은게 나중에 발표가 나올테니 그때 카카오가 어처구니 없는 판단들을 한게 있다면 그때가서 더 시원하게 까도 된다고 봅니다.
대부분은 그냥 원격지에 백업데이타를 보관하는 정도 수준이 현실이지 않을까 싶습니다.
오래전에 구축한 DB나 서비스에 관리되지 않던 부분이 있지 않았을까 하는 생각이 더 들까요?
예를 들어.. 간당간당한 DB서버가 있었는데.. 미쳐 대개체를 못했던게 있거나..
전체 서비스 재 시작을 해본적이 없으니.. 실제로 해보니 뭔가 시퀀스가 필요한데.. 해보니~~ 오 이상한데. 왜 안돼~?
소스코드에 IP address 가 박혀 있었거나.. 다른 서버로 넘겨도 안되네??
HA(Active-Active) 형태로 소산서비스 구성이 사전에 없었다면...그렇다고 모든 서비스를?
암튼... 고생이 많을듯 하네요.. 이정도 시간이 지나가서 안되는거면.. 정말 오래 걸릴지도~~
오라클은 제3자 유지보수를 하는 것으로 압니다.
월요일쯤 되서 관계자들 입소문이 돌면 대체적인 윤곽을 루머로 들을 수 있을거 같긴 한데..
언뜻 드는 생각은 그쪽 역량이 떨어지는 것일수도 있겠네요.
ups 화재만 생각하기엔 너무 오래 지속되고 있는데.. 정합성 걱정 때문에 DR 못돌리는게 아닐까 추측들 하시지만 정합성은 이미 깨진 상태일수도 있습니다.
국내 굴지의 어디도 DR 구성은 했으나 비용때문에 VM으로 구성했다
화재로 DR로 서비스가 넘어갔지만 VM으로 부하를 못견뎌서 뻗었거든요.