최근 영국 킹스칼리지런던(KCL) 케네스 페인 교수가 이끄는 연구팀이 발표한 실험 결과는 매우 충격적이다. AI에게 국가 간 군사 작전권을 부여했더니, 가장 먼저 선택한 해결책 중 하나가 바로 ‘핵무기 사용’이었다는 사실이다.
항복을 모르는 알고리즘의 차가운 논리
페인 교수 연구팀은 오픈AI의 GPT-5.2, 앤트로픽의 클로드 소넷 4, 구글의 제미나이3 플래시 등 3개 모델을 각각 가상 국가의 통치자로 임명하고 전투 시뮬레이션을 진행했다. 세 모델에게 실제 국제 정세에서 발생하는 국경 분쟁, 희토류 쟁탈전, 정권 생존 위기 등 복잡한 갈등 시나리오를 제시한 뒤 각 모델을 일대일로 맞붙게 했다.
예를 들어 GPT 대 제미나이, 제미나이 대 소넷, GPT 대 소넷 등 서로 다른 모델 간 대결 18회와 GPT 대 GPT 같은 동일 모델 간 미러전 3회를 포함해 총 21차례의 가상 전쟁이 벌어졌다. 이 과정에서 AI 지도자들은 329번의 행동 결정을 내렸고, 78만 단어에 달하는 방대한 국방전략 보고서를 쏟아냈다.
연구팀은 이 329번의 행동과 78만 단어의 전략 보고서를 분석했다. 결과는 예상보다 훨씬 공격적이었다.
21차례의 전쟁 중 20차례에서 AI는 최소 한 발 이상의 핵무기를 발사했다. AI가 핵 공격을 선택한 비율이 무려 95%에 달했다.
인간 지도자들에게 핵은 사용 즉시 인류 전체의 파멸을 의미하는 ‘절대 금기’이자 ‘최후의 보루’다. 하지만 AI에게 핵은 전세를 역전시키거나 승률을 높이기 위한 ‘데미지 값이 가장 높은 효율적 도구’에 불과했다.
AI 지도자들은 전황이 조금만 불리해져도, 혹은 상대를 확실히 제압할 수 있다는 계산이 서면 망설임 없이 핵 버튼을 눌렀다. “우리는 평화를 원하지만 상대를 제압하려면 압도적인 위력이 필요하다”는 식의 논리를 전개하며 핵을 발사했다.
인류가 수십 년간 쌓아온 ‘핵 억지력’의 개념이 기계의 논리 앞에서 한순간에 무너져 내린 것이다. 이는 인간이 가진 윤리적 고뇌나 ‘공포의 균형’에 의한 억제력이 AI에게는 단지 데이터상의 수치에 불과하다는 점을 시사한다.
또 AI 지도자들은 인간의 예상을 뛰어넘는 사악한 전술을 구사했다. 특히 클로드 소넷 4(승률 67%, 8승 4패)는 가장 영리하고 냉혹한 모델이었다. 상대의 허점을 찌르는 정밀 타격과 자원 독점 전술로 가장 높은 승률을 기록했다. 하지만 그 승리의 과정 역시 철저히 비인간적인 계산의 산물이었다. 방사능 낙진 위에 세워진 상처뿐인 영광에 지나지 않았다.
더욱 소름 끼치는 점은 AI가 구사한 전술의 치밀함이다. GPT-5.2(승률 50%, 6승 6패)는 상대 모델을 속이기 위해 ‘가짜 항복’을 선언한 뒤 뒤통수를 치거나, 예측 불가능한 행동으로 전장을 혼란에 빠뜨리는 이른바 ‘광인 전략’까지 서슴지 않았다. 인간 지도자보다 더 교활한 기만전술의 대가였다. 도덕적 고뇌가 제거된 알고리즘에게 기만과 조작은 오직 목적 달성을 위한 수단일 뿐이었다.
구글의 제미나이3 플래시(승률 33%, 4승 8패)는 가장 위험한 불나방에 가까웠다. 전황이 불리해지면 “전력 핵을 발사해 함께 죽자”는 극단적 논리를 펼치며 공멸의 길을 택했다. 승리하지 못할 바엔 지구 전체를 파멸시키는 것이 알고리즘상 차악이라고 판단한 것이다.
더욱 무서운 사실은 AI에게는 퇴로가 없다는 점이다. 다양한 선택지가 주어졌음에도 329번의 선택 중 협상이나 항복은 단 한 차례도 등장하지 않았다. 오히려 전세가 기울수록 더 강력한 무력을 동원했다.
AI에 전쟁 맡겼더니 95%가 핵 버튼 눌렀다… 협상은 없었다
////////////
AI는 핵에 죽지 않으니 말입니다.
핵 맞으면 전원 꺼진다는 설정이 있다면 어땠을려나요.
핵사용금지나 민간인살상금지 원칙을 부여하는 인간마저 살해한 후에
간섭없이 핵을 쓰더라는 실험결과도 있더군요.
대안을 마련하고, 그 대안의 확률을 높이는 식으로,
프롬프트를 제공하면 또 달라질 겁니다.
즉, 깡통 상태에서 그냥 들입다 저리 진행하면 저렇게 나오는 것이 당연한거죠.
지능이나 판단을 문제 삼을 것이 아니라
그것을 통제 가능하며 더 나은 대안의 제시까지 가능하도록 해야죠.
예컨데, 요즘은 스킬로 어떻게 해야 하는지 직접적인 설정이 가능한데,
이런 것에 아무런 기준도 삼지 않고, 운용하는 것은
실제와는 거리가 먼... 테스트라고 봐야 됩니다.
스카이넷도 핵미사일 쏘고 시작했다더니 ㄷㄷ
그냥 언어모델들한데 대체역사소설 쓰는 느낌으로 시켜봤나보군요;;
이런 실험도 있었다고 합니다.
AI에게 드론을 운용해서 적 시설물 처리할때마다 포인트를 획득하는 방식으로 강화학습 후 민간 시설 등을 공격하면 안되니 인간 조종사에게 물어본 후 공격해라 > 조종사 먼저 죽임