요즘 특정 목적의 하네스를 만들고 있습니다.
플랜을 짜고 실행하고, 로직 점검하고 수정하고, 평가하고...
이렇게 반복하면서 계속 다듬어 가고 있는 중인데요.
각 모델은 A가 짠 개선안을 B가 문제를 짚어 내고,
또 C에 맡기면 또 나오고, 또 나오고...
그래서 최종 점검을 누가 잘 하느냐....면, 오푸스인 것 같습니다.
플랜을 짤 때는 누가 더 잘하느냐...
에서 GPT가 잘 하는데, 그럼 이걸로 충분한가...
아닌 것 같습니다.
이 역시 오푸스에게 마지막 점검을 맡깁니다.
연간 구독이 끝나 사용하지 않은지 불과 한 달 밖에 되지 않은 퍼플렉시티에
'모델 협의회(카운슬)'이란 기능이 생겼더군요.
아예 같은 과제를 여러 모델에 동시에 던져주고,
나온 답의 차이를 분석해서 공통적인 부분과 차이 점에 따라 통합해주는 기능이었습니다.
지난 두어 달 사이에 화제가 된 오픈소스들은
대개 이런 측면에 가능성을 미리 본 유저 중 일부가
막대한 토큰을 소모해가며 쌓은 경험치를 오픈소스 하네스에 노하우를 담고 있는데,
실은 그 핵심은 오케스트레이션으로,
작업을 에이전트 별로 나눈다던지,
앞서 말 한대로 한꺼번에 답변을 나오게 하는 것을 일꾼,
그 일꾼을 관리하는 역할을 어떻게 하느냐... 에 따라
꽤 결과물이 달라지는 듯 합니다.
즉, 분담을 시키기도 하고,
같은 일을 여럿이 한 후 통합하기도 하는 등의 작업은 생각 보다 효과가 좋은 것 같습니다.
핵심은 모델 성능이 아니라 도구의 성능/최적화와 그걸 뒤에서 실현하는 오케스트레이션의 완성도, 그리고 중간중간에서 적절히 메워줄 백프롬프트 등인 것 같습니다.
젠스파크의 슈퍼에이전트를 보니 프론트엔드에서는 그냥 GPT-4o나 GPT-5 정도가 돌아가는 듯 하고 백엔드에서 많은 일들이 벌어지는데 사고 과정을 살펴보면 중간중간 검증 레이어들이 있는데 제 생각엔 거기에 오푸스를 활용하지 않나 싶었습니다.
태스크 자체가 복잡하거나 다루는 내용이 어려우면 고성능 모델이 필수적이겠지만, 대부분의 경우에는 모델보다 오케스트레이션인 듯 하네요.