왠만해선 글을 안썼는데 공감글을 보고 이건 아닌거 같아서 한번 글 남겨봅니다.
https://clien.net/service/board/park/19070574?po=0&sk=title&sv=%EB%B3%B5%EA%B5%AC&groupCd=&pt=0CLIEN
위의 글에 공감이 70개가 넘긴걸 보고 조금 충격을 받았네요. 이걸 잘했다고 칭찬을 해야하는 상황이라고 보다니 참....제가 보기엔 오히려 2025년인 지금도 이렇게 하고 있는 공무원들을 혼내야하는 상황 아닌가 싶어서요. 댓글에 누가 말씀해주신 것 처럼 카카오톡 서비스 하나 마비됐을때는 민간 기업한테 뭐라고 했던 정부 기관들이었으니...
이게 참 무서운게...국정자원이 있는 위치에 원점 타격하면 한 국가의 전산망이 한번에 무력화 되어 버리는 상황이거든요. 그것도 복구에 수일에서 1-2주가 걸리는...이게 평시니까 이렇게 아무 문제가 없었겠지만 비상 상황에서 이런 일을 맞았다면 생각도 하기 싫은 상황들이 벌어졌겠죠.
클라우드를 평소에 사용하시는 분들은 잘 아시겠지만 AWS를 쓰던 Azure를 이런 퍼블릭 클라우드에서 말하는 고가용성 아키텍처의 모범사례대로 적어도 최소 2개 가용영역에만 서비스/DB를 이중화해서 배포했다면 (총 컴퓨팅이나 DB 사이즈는 기존과 비슷하게 맞춰서 비용 맞추고 애플리케이션은 액티브 액티브 디비는 프라이머리/세컨더리로..) 한 가용 영역이 완전히 파괴되도 아무리 늦어도 DB 페일 오버에 걸리는 1-2분이면 (실제로는 수초내로 가능.. ) 복구 완료됐을꺼에요.
전면적으로 재검토해서 예산 투자해서 개편했으면 좋겠네요. 국산 민간 클라우드인 네이버 클라우드나 삼성 클라우드가 어느 정도 수준까지 올라왔는지 모르겠지만 국산 민간 클라우드가 기능적으로 부족하다면 멀티클라우드를 기본으로 외산 클라우드도 사용가능하게 격리된 리전(혹은 격리된 여러개의 가용역역) 받아서 최대한 빨리 고가용성 확보하는게 국가 안보측면에서는 훨씬 유리해 보입니다.
제가 설명에도 썼지만 컴퓨팅 총량을 늘리자는게 아니고 기본 사양이 100이면 50/50쪼개서 분산 배치하자는거죠. 그리고 실제로 온프렘 데이터 센터에 고가용성이나 안정성을 위해서 서버 사양을 보통 굉장히 높게 잡아두고 실제 유틸라이제이션은 낮은 경우가 많은데 결국 최적화하면 오히려 클라우드가 더 싼 경우도 많습니다. 필요할 때만 스케일아웃되고 안 쓸때는 스케일되게 설정하면 되죠. 그리고 정부 같은 기관 정도면 리전급으로 리소스를 많이 쓸테니 할인도 많이 받을수 있습니다..
https://www.gov-ncloud.com/v2/
DR을 가동하는것도 아니고, 원래 있던 주센터의 시스템 재가동하는데 40시간 이상 걸리는거면 그냥 매뉴얼 부재, 형상관리 실패, 파트수급관리 계획 실패, 다 죄다 실패죠.
5층에 타버린 96개 시스템 복구하는건 4주걸리는건 그렇다쳐도
전원 껏다 켰으니 정합성 안맞을거 예상은 하지만 이정도로 못맞추고, 미들웨어, AP 가동하나 제대로 못해서 SLA상 2시간 3시간인 서비스들조차도 네트워크 정상가동시점기준으로도 40시간 넘는건 그야말로 대참사죠.
그래놓고선 금융보고는 Hot Site 3시간 지키라고 그러죠. 실시간복제에 vtl ptl뜨는것도 못믿으니 제3장소 소산하라고하고 지진나서 주센터 무너졌는데 주센터 직원 DR로 어떻게 옮길거냐고 이게 현실성있냐고 BCP 계획 그렇게 꼬투리잡는 사람들이 말이죠. 정작 실시간복제는커녕 montly 백업이라 데이터 소실 우려 이러고있으니 헛웃음만 나오죠
그런데 이런 수준 운영이면 클라우드로 넘어갈 아키텍쳐 재정립도 못하고, 줘도 운영못해요.
AIX같은거 껴있으면 U2L한다고 또 돈먹고 시간먹을거구요.
클라우드로 운영하면서도 가용성영역 두군데 배포 하고 돈 두배로 나온다고 뭐라하니까요
결국 비용문제가 제일 컸고 결정권자들이 나가리시켰겠죠
생각해보세요. 운영 서버가 하루여도 난리 나는데 ...
항상 소 잃고 외양간 고치는 격이죠.