벤치마킹 문장을 넣고, 클로드 3.5 소넷을 작동시켜보니 99.9% 잡아냅니다.
맞춤법이나 문법 교정해주는 서비스가 많아지면서, 서비스 선택 할때 참고하려고 만들어둔 오류 문장을 가지고 있습니다. 이 걸 다 통과하는 건 GPT 뿐이었습니다. 제미나이 1.5도 아직 통과 못했습니다...
하루가 지나, 소넷에 대한 평가는 GPT 보다 추론이 뛰어나긴 한데, 대부분의 결과는 GPT-4o가 낫다는 평입니다. 그러나 이런 테스트를 해보니, 의외로 lmsys의 2위에 있는 제미나이와 순위 변경이 될 듯싶습니다.
http://speller.cs.pusan.ac.kr/