토큰 사용량은 아직 모르겠으나, 입출력 비용은 4.7과 동일합니다. 4.7 세션을 4.8에서 resume 안 됩니다.
보고 패턴이 티가 확 날정도로 체계적으로 바뀌었네요. GPT 5.5의 에이전틱 터미널 코딩 능력을 따라 잡으려고 손을 많이 댄 것 같습니다.
코딩 시키면 배선 빼먹기 대장인 놈이, CODEX가 해놓은 배선 오류를 이전보다 잘도 잡아내고 있습니다. 실제 능력은 코딩을 시켜봐야 겠습니다.
공식 발표내용 중 기만, 오용 협조 같은 잘못된 행동 비율이 미토스와 비슷한 수준이라고 하는데, 미토스는 환각이 Opus보다 아주 심한 모델이라 실제로 어떻게 동작을 할지는 좀 더 살펴봐야 할 것 같습니다. 하루 빡세게 굴려보고 평가해보겠습니다. ---------------------------------- 정직성(Honesty) 강화 — 이번 업데이트의 핵심 포인트로 꼽힙니다. <cite index="8-1">Opus 4.8은 자기 작업에 대한 불확실성을 더 자주 표시하고, 충분한 근거 없이 진행 상황을 주장하는 경우가 줄었습니다.</cite> <cite index="5-1">코딩 오류를 그냥 넘기는 비율이 약 4배 낮아졌다</cite>고 합니다. <cite index="8-1">정렬(alignment) 평가에서도 기만이나 오용 협조 같은 잘못된 행동 비율이 4.7 대비 크게 낮아져, 가장 잘 정렬된 모델인 Claude Mythos Preview와 비슷한 수준을 보였습니다.</cite> Effort(노력 수준) 제어 — <cite index="3-1">모델 선택기 옆에 새로운 컨트롤이 추가되어, Claude가 응답에 얼마나 노력을 들일지 사용자가 선택할 수 있습니다.</cite> <cite index="8-1">Opus 4.8은 기본적으로 high effort로 설정되며, 더 어려운 작업이나 장기 실행 워크플로우를 위해 extra(Claude Code에서는 xhigh) 또는 max를 선택할 수 있습니다.</cite> 노력 수준이 낮으면 응답이 빠르고 토큰 소모가 적어 rate limit에 천천히 도달합니다.
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp 지나치게 큰 이미지의 크기는 조정될 수 있습니다.
토큰 사용량은 아직 모르겠으나, 입출력 비용은 4.7과 동일합니다.
4.7 세션을 4.8에서 resume 안 됩니다.
보고 패턴이 티가 확 날정도로 체계적으로 바뀌었네요. GPT 5.5의 에이전틱 터미널 코딩 능력을 따라 잡으려고 손을 많이 댄 것 같습니다.
코딩 시키면 배선 빼먹기 대장인 놈이, CODEX가 해놓은 배선 오류를 이전보다 잘도 잡아내고 있습니다. 실제 능력은 코딩을 시켜봐야 겠습니다.
공식 발표내용 중 기만, 오용 협조 같은 잘못된 행동 비율이 미토스와 비슷한 수준이라고 하는데, 미토스는 환각이 Opus보다 아주 심한 모델이라 실제로 어떻게 동작을 할지는 좀 더 살펴봐야 할 것 같습니다.
하루 빡세게 굴려보고 평가해보겠습니다.
----------------------------------
정직성(Honesty) 강화 — 이번 업데이트의 핵심 포인트로 꼽힙니다. <cite index="8-1">Opus 4.8은 자기 작업에 대한 불확실성을 더 자주 표시하고, 충분한 근거 없이 진행 상황을 주장하는 경우가 줄었습니다.</cite> <cite index="5-1">코딩 오류를 그냥 넘기는 비율이 약 4배 낮아졌다</cite>고 합니다. <cite index="8-1">정렬(alignment) 평가에서도 기만이나 오용 협조 같은 잘못된 행동 비율이 4.7 대비 크게 낮아져, 가장 잘 정렬된 모델인 Claude Mythos Preview와 비슷한 수준을 보였습니다.</cite>
Effort(노력 수준) 제어 — <cite index="3-1">모델 선택기 옆에 새로운 컨트롤이 추가되어, Claude가 응답에 얼마나 노력을 들일지 사용자가 선택할 수 있습니다.</cite> <cite index="8-1">Opus 4.8은 기본적으로 high effort로 설정되며, 더 어려운 작업이나 장기 실행 워크플로우를 위해 extra(Claude Code에서는 xhigh) 또는 max를 선택할 수 있습니다.</cite> 노력 수준이 낮으면 응답이 빠르고 토큰 소모가 적어 rate limit에 천천히 도달합니다.