현재 사용자들이 챗봇을 사용하면서 경험하는 것은
프롬프트 작성 & 입력 -> 챗봇 답변 -> 답변 검토 후 재작성 & 입력 -> 챗봇 재답변..
이런 식의 반복작업이죠. 챗봇의 성능이 동일하다면 사용자의 프롬프트 작성 능력에 따라 결과물이 천차만별입니다. 어떤 사람들은 생산성이 올랐다며 직원을 자르고 어떤 사람들은 엉터리 답변을 내놓는다며 이게 왜 뜨거운 감자인지 의아해 하죠.
그런데 챗봇이 프롬프트를 스스로 생성할 수 있다면 어떻게 될까요? 사실 프롬프트를 평가하고 다듬는 기술은 현재의 챗봇에도 내장돼 있다고 합니다. 다만 사용자의 프롬프트가 어떤 맥락인지 파악해서 최적의 답변을 만들 기 위해 내부적으로만 그렇게 하고 사용자한테는 감춰져 있다고 하네요.
그럼 여기서 의문이 하나 생깁니다. 만약 챗봇이 자기 자신한테 세션을 하나 열어서 자동으로 프롬프트를 떠올려 입력한 다음 답변을 보고 다음 프롬프트를 만들어서 다시 입력해서 나온 답변을 보고 다시 프롬프트를 떠올리고.. 하는 과정을 되풀이하게 만들면 어떻게 될까 하는 의문점 말이죠.
챗지피와 제미나이한테 이걸 물어보니 이미 재귀적 피드백 루프라는 이름이 붙어있고 AI 연구진들이 열심히 연구하고 있다고 합니다.
그럼 이걸 프롬프트 산출기능과 결합시키면 어떻겠느냐고 물어보니 잘될 수도 있고 잘 안될 수도 있다고 합니다.
잘 되는 경우: 프롬프트 최적화 (최선의 답변 기대)
잘 안되는 경우: 프롬프트 열화 또는 과적합. 과도한 편향 발생.
이런 답변을 보니 AI 기압들이 조만간 초지능이 나온다고 경고하는 이유가 혹시 위에서 언급된 부작용이 거의 해결돼 가고 있는 상황이 아닌가 하는 의심이 퍼뜩 들었습니다.
이거 AGI가 생각보다 진행속도가 빠른 것 같아서 무섭게 느껴지네요 .
반쪽일 것 같습니다.
추론 모델의 경우 추론 성능이 나오기 위한 데이터셋을 따로 꾸리고,
그에 맞는 학습을 시킵니다.
무슨 말이냐면,
본문에 적은 방법을 쓰려면,
프롬프트만으로 되는 것이 아니라
아예 그 방법이 먹히는 모델 학습이 되어야 할 것으로 보입니다.
모델들이 처리할 수 있는 데이터 양을 루프로 반복하며 넘어서는 순간 이전 것들을 망각해 버리기 때문이죠.
이것 때문에 RAG 을 계속 연구하고 있는 걸로 압니다.