안녕하세요 ~
IT 종사자 입장 에서 이번 사건 을 보고 소방본부의 발표 (배터리 절체 작업중 불꽃이 튀었다) 와 배터리 제조사로만 포커스가 되어 있는것같아 몇가지 의견 을 적어봅니다.
우선 제가 전기 계통의 전문가 는 아니며 IT 정책 관련 업무와 개인의 경험에 의한 글임을 명시합니다. (전문가분들의 지적 부탁드립니다)
1. 우선 IDC 의 UPS 이동 작업중 불이 났다?
우선 제가 업에 종사하면서 유사한 사건을 겪어 본적이 3차례 있습니다.
그 유사 사례중 한가지는 국산 UPS 를 사용중이던 전산실 이었으며, 정전에 의한 UPS 가동이후 신규 장비 대체 를
위한 장비 철거 작업에서 발생하였습니다. 해당 사고와 유사하게, 해당 UPS 유지보수 업체에서 절체 작업을 진행하던도중
해당 방식처럼 스파크에 의한 화재 까지는 아니었으나, 배터리 셀의 열 폭주 현상 때문에 엄청난 탄내와 검은 연기가
발생하였고 해당 사고를 수습 하고 안정성 강구 측면에서 E사의 UPS 로 전량 교체하고 그들의 운영 메뉴얼을 통해서
사고의 원인을 알수 있었습니다. 그차이는 Transport 모드 혹은 방전모드의 유무였습니다.
그전 운영하던 국산 UPS 에 해당 기능 이 있었을지 모르나 해당 작업자가 해체 작업중에 해당 방전 모드를 모르고있었고,
단순 하게 UPS의 전원만 셧다운을 진행하니 각 셀들의 SOC 는 90% 수준으로 완충상태에서
스파크가 일거나 BMS 의 전원이 종료된 상태 에서 셀의 보호회로가 없는 상태에서 이동과 단락변경등 에
열 폭주가 발생한 부분 입니다.
전기관련 전문가는 아니지만 그후 E사의 UPS 를 운영하면서 확인한 정보로는,
단순하게 UPS 재기동 / 관리 펌웨어 업데이트 시에는 배터리가 완충 상태에서 단순하게 전원만 셧다운을 진행하나
구성의 변경 이동 등이 있을때는 안전상의 이유로 방전모드 혹은 Transport 모드 활성화를
배터리 수명에 영향이 있을수 있으나 통해 SOC 충전 상태를 30~40 % 로 방전후 작업을해야 단락에의한 스파크
혹은 열폭주에서 안전 할 수 있다고 들었습니다. (전문가분의 의견 부탁드립니다.)
* 국산 UPS 가 나쁘다는 이야기를 하는게 아니라, 제가 현업에서 UPS 입찰을 진행한적이 있었는데
제경험상 국산 저렴한 업체에서 강조하는 셀링 포인트는 고가의 UPS 벤더와 동일한 셀을 사용 하고 있어
"동일한 제품 이다" 인데, 사고를 경험해 보니 특히 UPS 등 고위험 장비의 경우,
단순한 배터리 용량과 기본 UPS 로 기능이 아닌, 안전을 위한 메뉴얼, 주전원 차단시에도 일정시간
보조 전원을 통한 BMS 작동 기능등 부수 기능들이 중요 했다 부분 입니다.
2. 이번 사고에서 귀책사유를 확인해 볼 것은 무엇일까?
1) 리튬이온 배터리에서 불이났다고 LG 엔솔의 배터리팩이었다 에 포커스가 아니라,, 해당 UPS 제조사의 가이드 및
방전 기능의 유무 및 문제가 발생한 UPS 제조사 에 포커싱이 되어야 한 다고 생각 합니다.
2) 분명 공무원분들의 업무 진행 특성상 해당 작업이 진행중 업체를 통해 작업 계획서를 전달 받았을 거고,
해당 작업계획서 상 방전 계획 의 유무, 해당 계획의 검토자 등을 확인해야 한다고 생각합니다.
해당 PM 작업의 진행에 있어서, 단순 셧다운 계획이 아니라, 이동 계획시 방전 계획이 있었는지,
실제 해당 방전이 수행 되었는지 여부
3) 대부분의 IDC 에서 UPS 가 운영중일거고, UPS 의 특성상 상시 운영중일때 보다 교체 혹은 셧다운 등
전압의 변화가 많을때 사고가 빈번하게 일어난다고 합니다.
전체적으로 해당 메뉴얼 을 전문가와 점검 해서 안전성 확보가 필요하다고 합니다.
저보다 전문가분들이 더많은 의견을 주실거라 생각 합니다.
안타까운 마음에 주저리 주저리 적어봅니다.
이시간에도 복구에 고생할 IT인들 화이팅 하세요!
누출은 안되요..
UPS는 무중단 서비스라고 하지만 발전기까지 구축되어야 무중단 서비스이고 정상종료 시간 벌어주는거죠. 일반적으로 UPS와 연결해서 종료 스크립트 실행합니다. 데이터 소실은 없을거라고 보입니다. fail back도 3 tier구조라 각 응용 솔루션들의 로그 데이터야 뜨겠지만 db만 옮기면 딱히 문제될건 없을 것 같네요.
10~15년전에 SI 업체 대기업에서 납품 견적 받았을대 서버 2대씩 두는 이중화 한다고 하는데 아직도 여기에 머물러 있나 싶습니다.
클라우드 조차 멀티클라우드 쓰는 세상에서 IDC 하나 불났다고 서비스가 안된다는게 참...
재해복구센터로 서비스 넘기는 것도 정말 고민 많이하고 의사결정해야합니다. 재해복구 가동하는 순간 주센터 데이터는 정합성 끝이니까요. 원복해야할때도 문제고....
재해복구센터는 사실상 주센터 건물 무너질때나 사용하는 의미 아닐까 싶네요
완전 잘못 알고 계신거 같습니다.
https://www.fnnews.com/news/202210161442291926
카카오 데이터센터 장애일때 분산 IDC 쓴다고 기사 났습니다.
오히려 글로벌하게 더 큰 트래픽을 받는 빅테크들도 분산 데이터센터 잘 씁니다. 오히려 국내 서비스들이 트래픽도 더 적은데 분산 IDC 못할 이유가 없죠. 그냥 실력이 없어서 못하는것 뿐입니다.
그리고 빅테크 업무와 금융 업무를 동일하게 보시면 안됩니다..
페이팔도 멀티 클라우드 사용합니다.
거래 금액은 국내 카드사 다 합친것보다 크고요. 그리고 페이팔도 예치금 있어서 입출금 다됩니다. 그것도 조 단위로 있고요. 국내 금융사들보다 거래도 훨씬 많고요.
멀티 클라우드 못하는건 국내 개발사들이 실력 없는거에요. 금융도 다 가능합니다.
그냥 배터리의 전력공급을 끊은 것이고 배터리는 SOC 100% 만충상태로 대기하게 됩니다.
글쓴이께서 언급하신 'Transport 모드 혹은 방전모드'가 없는 UPS 라고 하더라도 전원을 내린다고 배터리단에 스파크가 생길 가능성은 제로에 가깝습니다.(없다고 하고 싶지만 엔지니어는 100%는 없기 때문에...)
'Transport 모드 혹은 방전모드' 유무가 사고의 참원인이 아니고 절체작업 도중 작업자의 부주의가 분명히 있었을 겁니다. E사의 UPS로 바꾸면서 담당자의 일종의 출구전략이 'Transport 모드 혹은 방전모드'의 유무였지 않았을까 추측해봅니다.
추가 기사를 보면 배터리 연결 케이블을 분리하는 과정이라는 얘기가 있던데 전 작업방식에 문제가 있지 않았을까 라고 의심해 봅니다. 정상적인 방법으로 케이블을 해체하지 않고(볼트 분리 - 커넥터 or 단자부 해체 - 절연처리 등) 커팅기 같은 걸로 케이블을 잘랐고 이 과정에서 렉단위 쇼트가 발생하여 배터리 발열과 열폭주가 발생했을 것 같습니다.
댓글들처럼 당연히 일정 수준 이하의 SOC 로 방전하고 작업을 했더라면(설사 렉단위 쇼트가 발생했더라도) 저장된 에너지 양이 작으니 화재도 좀 더 일찍 진화됐을 겁니다만, 전기적 충격에 의한 발화는 SOC 와 비례하지 않습니다.
그리고, 작업자의 실수가 있었다면 배터리 설치 경험이 없는 업체에 작업을 맡겼을 가능성도 있습니다.(실제 경험담입니다)
배터리를 이설할 계획이었다면 분명 High voltage 케이블도 포설이 필요했을꺼고 분리발주는 귀찮고 비용이 더 들어가니 일반적인 전기업체에 배터리 이설까지 의뢰를 했을 가능성도 있습니다. 업체는 배터리 이설 경험이 없다보니 배터리의 위험성에 대해 잘 모르고 일반 전기설비 관점에서 작업을 하다보니 작업 부주의가 생겼을 수 있습니다.
희박한 가능성이긴 하지만 UPS 가 과방전을 했을 수도 있습니다. 예상 C-rate 보다 더 큰 전류로 방전을 하다가 열폭주까지 이어졌을 가능성입니다. 이러한 경우에는 글쓴이께서 말씀하신 BMS 모니터링이 유지되고 있었다면 분명 Fault 가 떠서 배터리가 차단됐을 겁니다. 그러나 가능성이 아주 낮습니다.
결론적으로 열폭주가 어느 시점에 시작됐는가가 중요할 것 같습니다.
1) 차단하고 바로 열폭주
- 차단기 고장으로 차단이 된 것 같았는데 제대로 off 가 되지 않고 대규모 쇼트 발생 -> 열폭주
2) 차단하고 일정시간 후 열폭주
- 작업 오류 -> 쇼트 발생 -> 열폭주
셀 자체 결함 가능성은 어느 케이스든 염두에 둬야 하나 그건 CCTV 를 보면 바로 알 수 있을 겁니다.