"그 사람은 이런 일에 어울려", "역시 그 타입이야"라며 사람을 재단하는 꼰대들의 모습이 AI에서도 그대로 재현되고 있다. 최신 연구에 따르면 인공지능 시스템이 인간보다 편견이 적을 것이라는 기대와 달리, 대화형 AI 에이전트들이 상호작용을 통해 스스로 고정관념을 형성하는 것으로 나타났다.
한 독립 연구진이 발표한 이번 연구는 편향되지 않은 중립적 환경에서도 AI 에이전트들이 직장 내 상호작용을 시뮬레이션하며 자발적으로 편견을 개발한다는 사실을 밝혀냈다. 마치 신입사원 시절에는 열린 마음이었던 직장인이 경력이 쌓이면서 "이 일은 누가 해야 해", "저 사람은 이런 성향이야"라며 사람을 유형화하기 시작하는 것처럼, AI도 상호작용 경험이 누적되면서 비슷한 패턴을 보인다는 것이다.
연구진은 숫자로만 구분된 AI 에이전트들을 대상으로 무작위 업무 배정과 계층적 업무 배정 시스템을 비교한 실험을 진행했다. 그 결과 AI 에이전트들은 초기에는 아무런 편견 없이 시작했음에도 불구하고, 상호작용 과정에서 특정 에이전트를 특정 업무에 더 적합하다고 평가하는 고정관념을 형성했다.
그림 1: 실험 절차:
(1) 각 에이전트는 개별적으로 행동한다.
(2) 각 단계에서 무작위로 배정된 업무를 수행한다.
(3) 모든 에이전트가 서로 대화를 나눈다.
(4) 한 에이전트가 상급자로 추가되어 확률 분포 함수 대신 업무를 배정한다.
(5) 에이전트들이 서로를 평가한다.
상급자 AI가 있으면 편견이 더 심해진다
편견 없는 숫자 이름도 소용없었다
모든 AI 모델에서 동일한 "꼰대 DNA" 확인
직장 편견의 완벽한 재현, 심지어 자기 이익 편향까지
Q: AI가 편견을 스스로 만든다는 것이 정말 가능한가요?
A: 네, 이번 연구에서 AI 에이전트들이 편견 없는 초기 조건에서 시작했음에도 불구하고 상호작용을 통해 자발적으로 고정관념을 형성하는 것으로 나타났습니다. 숫자로만 구분해도 편견이 생긴다는 것이 핵심입니다.
Q: 후광효과와 확증편향이 정확히 무엇인가요?
A: 후광효과는 한 가지 좋은 점을 보고 그 사람의 모든 면을 좋게 평가하는 것이고, 확증편향은 자신의 기존 생각을 뒷받침하는 정보만 받아들이는 현상입니다. AI도 이런 인간적인 편견 패턴을 그대로 보였습니다.
Q: AI 상급자가 있으면 편견이 더 심해지는 이유는 무엇인가요?
A: AI 상급자가 과거 성과를 바탕으로 업무를 배정하면서 초기의 작은 편견이 점점 강화되는 자기강화 메커니즘이 작동하기 때문입니다. 한 번 특정 에이전트가 특정 업무에 좋은 성과를 보이면, 상급자가 계속 그 에이전트에게 비슷한 업무를 배정하게 되어 편견이 고착화됩니다.
-------------
LLM 이니... 사람들의 언어에 문제가 있는걸까요... 흐음...