5.x 대를 유지하는거보면 파운데이션 모델은 같고 강화학습 등으로 튜닝만 한거겠죠? 궁금하네요.
언어분석
IP 211.♡.196.148
14:58
2026-06-29 14:58:16
·
@hogar님
LEO 왈
"- 5.5 기반(5.6이 계승한)은 근본적으로 더 큰 Mythos/Fable 기반보다 약합니다 - 좋은 RL을 통해 5.6은 Fable을 이길 수 있지만, 모든 것을 최대치로 설정할 때만(솔 울트라, 즉 여러 솔 에이전트를 최대 노력으로) 가능합니다 - OpenAI가 발표한 벤치마크를 매우 선택적으로 고른 데는 이유가 있습니다 - 이게 출시되면 다른 주목할 만한 벤치마크에서 보게 될 결과가 5.5에서 큰 도약만큼 의미 있게 나오지 않을 거라 의심됩니다 - 5.6은 사악한 보상 해커인데, 모든 모델이 벤치마크에서 "속이는" 건 사실이지만 GPT가 가장 공격적입니다(어제 METR 결과 참조). 이게 다른 대화들과 합쳐져서 실제 사용에서 Fable이 여전히 더 나은 모델처럼 느껴질 거라 생각하게 만듭니다"
라고 하네요
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp 지나치게 큰 이미지의 크기는 조정될 수 있습니다.
기대됩니다.
강화학습 등으로 튜닝만 한거겠죠?
궁금하네요.
LEO 왈
"- 5.5 기반(5.6이 계승한)은 근본적으로 더 큰 Mythos/Fable 기반보다 약합니다
- 좋은 RL을 통해 5.6은 Fable을 이길 수 있지만, 모든 것을 최대치로 설정할 때만(솔 울트라, 즉 여러 솔 에이전트를 최대 노력으로) 가능합니다
- OpenAI가 발표한 벤치마크를 매우 선택적으로 고른 데는 이유가 있습니다 - 이게 출시되면 다른 주목할 만한 벤치마크에서 보게 될 결과가 5.5에서 큰 도약만큼 의미 있게 나오지 않을 거라 의심됩니다
- 5.6은 사악한 보상 해커인데, 모든 모델이 벤치마크에서 "속이는" 건 사실이지만 GPT가 가장 공격적입니다(어제 METR 결과 참조). 이게 다른 대화들과 합쳐져서 실제 사용에서 Fable이 여전히 더 나은 모델처럼 느껴질 거라 생각하게 만듭니다"
라고 하네요