갑자기 지옥같은 경험이 떠오르내요..
예전 모 고객사 실장님이 실전과 같은 훈련하신다며
메인 전원차단 시전
상식적으로 ups 가 작동했어야하나,
갑자기 ups 배터리에서 연기 발생 ->
그래도 ups 가 돌고있으니 어서 시스템 셧다운을 순차로 하고 점검해야하는데 불날까봐 당황하셔서 ups 긴급정지 버튼 시전..
1 차 모든 서버 셧다운
반도체 관련 공정이라 순식간에 mes 가 멈추니 생산라인 난리나서 전화오고 전화가 불통..
깜짝놀라셔서 바이패스모드로 전원 올림
-> 평상시 아이들과 피크가 섞인 상태에서는 전력 부하가 상관없으나, 서버가 동시에 켜지면 일제히 피크 전력을 땡겨가는 바람에.. 전원부 부하 발생
차단기 내려가며 2 차 모든 서버 셧다운
인프라팀 직원전체가 달라붙어서 순차 부팅을 시도하였으나.. 이미 연속 2 차례 전원차단으로 서버들 레이드 사망 혹은 메인보드 사망..
결국 ..HP, Dell 파트룸 싹다 털고..새벽에 무진동차 섭외해서 다른 공장용 idc 에 있던 서버들 다 털어오고...오라클 SAP MES 여러벤더 엔지니어들이 모두모여 사이좋게 밤새며.. 서버복구하고..덕분에 데이터센터 장비 신형으로 교체하고.. 실장님은 짐싸서 집에 가셨던 추억이 떠오르내요...
대형 IT 회사인만큼.. 무사히 복구되길 기원합니다.
P.S) 가끔 업계 선배님들이 아키텍터로 일하면서 메인 스토리지 케이지에 디스크 베이 레드웨이브를 본적없으면 아직 시니어가 될때가 아니라는 말을 들은적이있었는데, 정말 해당 현장에서 처음봤...뭔가 몽롱하게 빠져드는 느낌이더라구요..
/Vollago
/Vollago
짐싸서 집에 가셨다고... 밑에 있네요 ㅠㅠ
/Vollago
/Vollago
/Vollago
/Vollago
/Vollago
/Vollago
/Vollago
전원 들어오면 자동으로 켜지는 옵션이 설정되어 있으면,
어쩔수없는 대 참사 아닙니까? ..
잘 하겠죠
아이디어 좋네요.. ㄷㄷ
그래도 UPS가 5분은 버티니 그 사이 발전기 시동만 걸면 되겠다 생각했는데요... 그 이야기는 밑에 쓰겠습니다
1. 모든 공정 stop
2. 레이드 사망
3. 메인보드 사망
제가 담당 엔지니어였으면 raid 사망과 메인보드 사망 소식 듣고 그 자리에서 기절했을 겁니다.
담당자 잠수탔어도 이해됐을거 같네요..
제가 다 오금이 저리네요...지금도 운영서비스 관리중인데...
역시 사회나 군대나 나대지말자가 맞는 것 같습니다;;
요
진짜 실전에서 가능한 일이지 않을까 싶어요
1차적으로 ups가 연기나서 이렇게 커진거지만요... ㅠ.ㅠ
그 상황에 대비한 솔루션이 있는지를 먼저 검토해야죠...
만약 없다면 그냥 돈날린 뻘짓쇼인거고
있다 해도 모든 시나리오 재검토한 다음 보완을 해서 진행을 하고
예상 시나리오와 실제를 비교하는 식으로 해야지
그 실장은 대체 무슨 자신감으로 불시에 맘대로 그랬을까요
데이터 날라갔고, 설비 날라갔고...인력 갈아넣어지고....거기에 납기 지연+a
보는 내내 공포감에 시달렸습니다.
이게 실화라니요.....
DB 살리는 작업을 이리저리 뛰다니며 새벽부터 오전 내내 했던 악몽의 시간들... ㅜㅜ
서비스 구성(서버/어플리케이션) 을 처음부터 auto failover 할수 있는 HA 구성으로 가는게 더 좋다고 보여집니다.
배터리 터져서 불났다고 하지만.. 제가 예상컨데.. 해당 상황은 대응 가능한 시나리오가 있었을듯..
허나 작동을 제대로 안한 어딘가가 있었겠죠.
저 상황은 이제 대비가 됐겠군요?!
요.
대체 뭘 어디서 영감을 얻으셨길래
실전 같은 "훈련"임을 잊으신건지..ㅠㅠ
입사해서 권한 받자 마자 로컬에 prod db를 통째로 내려받아서 사고치던 직원
테스트 없이 db 마이그레이션을 prod에 바로 먹인 직원이 생각나네요..
먹통 되자 한쪽에서 난리 나는데 전체를 밀어 버리던... 그리곤 자긴 dev인줄 알았다고..
어쨌든 무시무시한 이야기들이군요
그쪽 라인에 있는 다른 시스템 까지 몇백대 전원이 나가버려서 난리가 났져....
제 시스템은 전원 부터 모든게 다 별도라 문제가 없었지만 바로 불려나가서.... 아무것도 안하고 욕만 옆에서 들어주는....
모 통신사 사장이 사과했던 장애가 갑자기 생각나네요.. 협력업체 문제가 아녔는데.. 분명히...
당시 있던 독립부대가 해당 지역 통신망과 국방망 서버를 중개하는 역할도 하던 곳이라 UPS가 있었는데요. 이게 잘 돌아가겠거니 했는데 어느 날 점검을 해보니 무슨 스펙상 30분짜리가 5분을 채 못 가고 픽~ 꺼지는겁니다. 아 이거 고장났구나 싶어서 위에 보고를 했는데 제조업체가 사라져서 신 장비로 교체해야 한다나? 그래서 한참 미뤄지게 되었습니다. 군사시설이라 자체 발전기가 있긴 했는데 발전기 위치가 워낙 외진 곳에 있어 돌려도 산등성이를 넘어 가는거라 전기 끌어오는게 일이었습니다. 언젠가 고쳐지겠거니 하고 있는데...
얼마 후, 한밤중에 밥 먹겠다고 한참 라면 데우고 있는데 갑자기 전기가 팍! 하고 나가는겁니다. 작전실 컴퓨터는 당연히 뻗었고 휴대폰과 가스레인지만 빛나더라고요. 깜짝 놀라서 봤는데 서버랙은 다행히 빛납니다. 그런데 전압이 진짜 뚝뚝 내려갑니다... 5분도 안 남은거죠. 어버버할 틈도 없이 바로 발전기병이 후레시 들고 산을 타고 올라갔고, 저도 케이블 들고 미친듯이 뛰었습니다. 나중에 듣기로 그 서버의 전원이 내려가면 작은 서버랙 하나인데도 복구까지 며칠은 소요될거라 했습니다. 산등성이에서 전선릴 던지고 그거 주워다가 서버에 직결하고... ㅜㅜ
사령부 쪽에 정전 보고 하자마자 서버부터 물었는데 다행히 그 똥같던 발전기가 그날은 시동이 한 번에 걸려준 덕분에 서버는 살려냈습니다. 문제는 발전기 힘이 약해서 전자렌지는 고사하고 냉장고와 서버 외에 아무 것도 못 돌리는 바람에 그 날 저녁 놀기로 한건 전부 취소되고 잠만 잤습니다 ㅜㅜ
끌일이 없어그런것 아닐까요.. 껐다 켰다 하는 물건이면 구런게 있을텐데
전산실 작업 중에,
웅웅 대던 전산실이 고요해지더니
사람들이 뛰어 오던 기억이 납니다...
원인은 전력 과부하...