몇몇 커뮤니티에서 화제가 된 테스트를 보면서
느낀 점을 적어 봅니다.
일단 멀티모달 모델을 만들기 위해 학습하는 데이터들이 일관성을 갖기란 불가능에 가깝습니다.
이에 두 가지 방법을 쓸 수 있습니다.
하나는 합성 데이터를 만들 때 기준 지침을 잘 만들어 일관성을 충족하게 하고,
둘은 다시 사람이 기준을 잡고 평가 하는 식입니다.
그런데 현재 비전 능력이 탁월한 제미나이3.0이 육손이 테스트를 통과 할 때도 있지만
안 될 때도 많은데,
타 사례를 살펴 보면 고작 이 정도를 추론 못할 모델은 아니라는 것을 알 수 있습니다.
그럼 왜 잘 안 될 때가 많을까...의 답은,
비전으로 본 것에 대한 판단과 학습한 내용을 바탕으로 하는 추론 결과가 충돌하면,
추론이 더욱 힘을 받게 되면서...손가락이 다섯 개인 상황을 기준으로 잡고 대답한다는 것입니다.
이럴 때는...네가 이미지를 이해할 때는 너의 비전 파악 능력을 우선하라는 식의 시스템 프롬프트를 작성해 두면,
추론에 발목 잡히는 일이 거의 없어집니다.
1. 어차피 이미지 파악 및 관련 작업은 비전이 판단하므로 하나마나한 소리 같지만, 결국
최종 출력에 대한 간섭을 우리가 직접 제어할 수 없으므로, 이렇게 시스템프롬프트에
너의 비전 능력을 기준 삼으라 지정하면 오류가 확연히 줄어들게 됩니다.
2. 머리를 써야 하는 작업에는 Think Hard 를 붙여주면 더 잘 이해하고 판단합니다.
=3=3=3=3