출처 : 앤트로픽
앤트로픽이 자사의 중형 모델을 한층 강화한 Claude Sonnet 5를 출시했습니다.
앤트로픽은 이 모델이 계획을 수립하고 브라우저와 터미널 같은 도구를 사용하며, 불과 몇 달 전만 해도 더 크고 비싼 모델이 필요했던 수준까지 자율적으로 작업을 수행할 수 있다고 밝혔습니다.
이는 오픈AI와 구글의 최근 행보와도 궤를 같이합니다.
지난주 프리뷰로 공개된 오픈AI의 GPT-5.6 Sol은 자사 모델 중 가장 에이전트 기능이 뛰어나며, 사용자가 더 긴 자율 작업을 위해 하위 에이전트끼리 작업을 나눌 수 있도록 지원합니다.
지난 5월 출시된 구글의 Gemini 3.5 Flash 역시 대화형 챗봇을 넘어 최소한의 인간 개입만으로 실제 작업을 계획하고 구축하고 반복하는 에이전트 도구로의 전환을 내세운 바 있습니다.
이번 소넷 5 출시는 에이전트 기능이 이제 모든 가격대에서 기본적으로 요구되는 요건이 되었음을 보여줍니다.
앞으로의 차별화 지점은 누가 에이전트 작업을 가장 잘 수행하느냐가 아니라, 인간의 감독 없이 얼마나 저렴하고 안정적으로 수행할 수 있느냐가 될 전망입니다.
소넷 5는 Opus 4.8에 필적하는 성능을 내면서도 비용은 훨씬 저렴합니다.
화요일부터 무료 및 프로 요금제의 기본 모델로 제공되며, 모든 구독 플랜에서 사용할 수 있습니다.
가격은 8월 31일까지 100만 입력 토큰당 2달러, 100만 출력 토큰당 10달러로 책정되고, 이후에는 각각 3달러와 15달러로 인상될 예정입니다.
이로써 소넷 5는 Opus 4.8은 물론 오픈AI의 GPT-5.5, 구글의 Gemini 3.1 Pro보다도 저렴해졌습니다.
다만 Gemini 3.5 Flash보다는 여전히 비쌉니다.
앤트로픽에 따르면 지난 2월 출시된 전작 소넷 4.6과 비교했을 때 추론, 도구 사용, 소프트웨어 코딩, 지식 작업 등 에이전트 성능 전반에서 상당한 개선이 이루어졌습니다.
에이전트 코딩 벤치마크에서는 소넷 5가 63.2%를 기록해 소넷 4.6의 58.1%를 웃돌았습니다. 다만 Opus 4.8의 69.2%에는 미치지 못했습니다.
반면 지식 작업 벤치마크에서는 소넷 5가 오히려 Opus 4.8을 근소하게 앞섰습니다.
Opus 4.8은 미묘한 판단이나 심층 연구처럼 가장 어려운 문제를 해결하는 데 강점을 보이는 모델로 알려져 있습니다.
앤트로픽은 더 높은 정확도가 필요한 작업이라면 여전히 Opus 4.8이 최선의 선택이지만, 소넷 5는 개발자들에게 이전보다 훨씬 높은 품질의 저렴한 대안을 제공한다고 설명했습니다.
사용자는 소넷 5와 Opus 4.8 사이에서 작업 강도를 조절해 비용과 성능의 균형점을 찾을 수 있습니다.
Zapier의 수석 엔지니어 다니엘 셰퍼드는 세일즈포스 계정 등급 업데이트와 엔터프라이즈 연락처 대상 출시 공지 발송이라는 두 단계 작업을 소넷 5에 맡겼더니 예전에는 중간에 멈추곤 했던 이 작업을 처음부터 끝까지 완수했다며, 일상적인 자동화 업무에 고민 없이 선택할 수 있는 모델이라고 평가했습니다.
안전성 측면에서도 소넷 5는 전작보다 악용에 협조하거나 기만적으로 행동하는 등 바람직하지 않은 행동의 발생 비율이 낮아졌습니다.
악의적인 요청을 거부하고 프롬프트 인젝션 공격의 하이재킹 시도를 피하는 능력도 향상됐으며, 환각 현상과 아첨하는 행동이 나타나는 비율도 소넷 4.6보다 낮습니다.
다만 의도에서 벗어난 행동을 막는 측면에서는 Opus 4.8이나 Claude Mythos Preview 수준에는 이르지 못했습니다.
앤트로픽은 평가 결과를 근거로 소넷 5가 현재의 Opus 모델들에 비해 위험한 사이버 보안 작업을 수행하는 능력이 훨씬 낮다고 밝혔습니다.
https://www.anthropic.com/news/claude-sonnet-5