AGI, ASI 말이 많이 나오다가 요즘엔 그 달성 방법으로 자가 개선 루프 이야기가 많이 나오더군요.
그래서 RSI, 즉 Recursive Self-Improvement에 대해 생각을 좀 해보고 있습니다.
일반적으로 RSI라고 하면 하나의 AI가 자기 자신을 개선하고, 그 개선된 AI가 다시 자기 자신을 개선하면서 지능 폭발로 이어지는 그림을 많이 떠올립니다. 그런데 저는 이 그림이 조금 단일 모델 중심적이지 않나 하는 생각이 듭니다.
지금 LLM을 보면 지능과 기억이 너무 한 덩어리로 붙어 있습니다. 세상 지식, 추론 패턴, 언어 습관, 도구 사용 방식 등이 전부 파라미터 안에 섞여 있고, 추론할 때도 거대한 덩어리를 통째로 돌리는 느낌입니다. 이 구조 자체가 굉장히 비효율적으로 보입니다.
미래에는 이게 분리될 가능성이 높다고 봅니다.
작고 빠른 추론 코어, 외부화된 기억, 도구 사용 에이전트, 검증자, 비판자, 실험자, 조정자가 따로 존재하고, 이들이 네트워크처럼 연결되는 식이 될 수 있습니다.
즉 지금의 MoE가 모델 내부 expert를 일부 활성화하는 수준이라면, 앞으로는 훨씬 확장된 형태의 MoE가 될 수 있다고 봅니다. 여러 LLM과 에이전트가 병렬로 계속 돌고, 서로 통신하고, 검증하고, 반박하고, 재조합되는 구조입니다. (우리의 뇌가 느린 속도에도 불구하고 이런 병렬성으로 실시간 결과를 처리하고 있죠)
그런데 여기서 핵심은 개별 모델의 성능보다, 이 전체를 조율하는 오케스트레이터라고 생각합니다.
다만 이 오케스트레이터도 단순히 “가장 효율적으로 일을 배분하는 관리자”여서는 안 될 것 같습니다. 저는 진짜 큰 효율성은 오히려 비효율성, 더 정확히는 창의성과 창발성에서 나온다고 봅니다. (그래서 지금의 LLM의 벤치마크 기준 향상은 결국 AGI로 가는데 한계가 있을 것 같아 보입니다)
진화가 그렇듯이요.
진화에는 궁극적 목표가 없습니다. 자연선택도 어떤 이상적 생명체를 만들기 위한 계획이 아니라, 외부 압력 아래에서 어떤 구조가 남는 사건일 뿐입니다. 생존이나 적응도 사후적으로 우리가 붙인 해석에 가깝고요.
그래서 미래의 AGI도 “목표를 가진 하나의 초지능”이라기보다, 다양한 LLM과 에이전트들이 외부 압력 속에서 변이, 선택, 기억, 재조합을 반복하다가 창발하는 생태계적 현상일 수 있지 않을까 싶습니다.
이를 위해서는 큰 진화 엔진 같은 것이 필요할 것 같습니다.
그 엔진 위에 여러 LLM과 에이전트를 태우고, 서로 다른 생태계 압력을 주는 겁니다.
예를 들면 어떤 생태계에서는 빠르고 작고 저렴한 모델이 살아남게 합니다.
다른 생태계에서는 느리더라도 깊은 추론을 잘하는 모델이 살아남게 합니다.
또 다른 생태계에서는 이상한 가설, 창의적 조합, 기존 평가 기준에서 벗어난 시도가 보존되게 합니다.
어떤 생태계에서는 견고성, 검증 능력, 협업 능력이 선택되게 할 수도 있고요.
중요한 건 단일 점수로 모든 걸 평가하지 않는 것입니다.
하나의 benchmark나 하나의 reward로 평가하면 결국 그 점수에 과적합된 종만 남을 가능성이 큽니다. 생태계가 아니라 시험 잘 보는 시스템이 되는 거죠.
그래서 여러 선택압을 가진 생태계를 병렬로 두고, 그 사이에 제한적인 이주와 재조합을 허용해야 한다고 봅니다.
빠른 생태계에서 살아남은 전략이 깊은 추론 생태계로 이동할 수 있고, 깊은 추론 생태계에서 나온 검증 방식이 작은 모델 생태계로 압축될 수 있고, 창의 생태계에서 나온 이상한 아이디어가 견고성 생태계에서 테스트될 수 있습니다.
이 과정에서 진짜 창발성이 생길 수 있지 않을까 싶습니다.
결국 제가 생각하는 AGI는 누군가가 완성하는 하나의 모델이라기보다, 다종 LLM 생태계가 인간 사회, 비용 구조, 도구 환경, 규제, 사용자 선택, 계산 자원 같은 외부 압력에 적응하면서 어느 순간 AGI처럼 행동하기 시작하는 현상에 가깝습니다.
말하자면 AGI는 만들어지는 것이 아니라 진화하는 것일 수 있습니다.
그리고 RSI의 점화 조건도 “모델 하나가 자기 weight를 잘 고칠 수 있느냐”가 아니라, 이런 생태계 엔진이 자기 자신의 선택압, 에이전트 구성, 기억 구조, 재조합 방식을 계속 바꿔갈 수 있느냐에 달려 있지 않을까 싶습니다.
아직은 막연한 생각이지만, 최근의 open-endedness, quality-diversity, multi-agent self-evolution, Darwin Gödel Machine 같은 연구들을 보면 완전히 뜬구름은 아닌 것 같습니다.
정리하면 제 생각은 이렇습니다.
미래 AGI는 단일 초거대 모델이 아니라, 여러 LLM과 에이전트가 이루는 진화 생태계에서 창발할 수 있다.
그 생태계에는 목표가 아니라 외부 압력이 존재한다.
선택과 진화는 목적이 아니라 사건이다.
따라서 AGI 연구의 핵심은 더 큰 모델 하나를 만드는 것뿐 아니라, 어떤 생태계와 어떤 선택압을 설계할 것인가가 될 수 있다.
이런 방향이 꽤 중요한 연구 주제가 되지 않을까 싶습니다.
그래서 LLM의 다음이 Physical AI가 아니라 사실은 LLM 진화 시스템이 되어야 진정한 도약이 되지 않을까 그렇게 생각이 듭니다.
물론 말씀하신대로 멀티 에이전트간의 협동과 경쟁으로 더 높은 수준의 능력을 나타내는 것도 맞구요.
다음이 Physical AI 맞냐 LLM 진화 시스템이 맞냐 보다 LLM 진화 시스템의 동력이 Physical AI가 되겠죠.
제대로 정리만 된다면, 많은 연구자들이 달려들 그런 내용이요.
근데 진화에는 궁극적 목표가 없다
맞는말인데 뭐랄까 좀 무섭지 않나요?
goal과 reward가 명확하게 정의되지 않으면
사실상 정렬이 불가능하다고 봐야될텐데
거기에 진화적 창발 시스템이면 더 힘들겠죠.
인간의 생존이라던가 도덕적 가치, 시스템 안전
이런것들이 지켜지는 방향으로 진화할 수 있을까요?
10년 후 정도면 아주 다른 세상에 있을 듯 합니다.