코딩 관련 완성도
GPT5.2 > GPT5.1 >>Sonnet4.5 >GEMINI 3 pro (쏘넷을 능가하는 지우개를 머리에 장착!)
코딩 관련 요약
ChatGPT5.2 및 CODEX 에 대한 느낌

* 단 한가지 폭탄은 GPT5.2 pro! 인풋, 아웃풋 토큰 가격이 5.2의 무려 12배, 인풋 캐싱 인정 안 됩니다.
궁금해서 결국 pro로 다시 플랜을 업그레이드해서 테스트해봤더니, 다른 Ai들이 허술하게 처리해서 문제가 되던 버전관리를 깐깐하게 해줘서 깜박하고 취약점 존재하는 구버전 사용을 잘 막아줍니다. (클로드와 제미나이는 현재가 자신이 학습하던 2024년이라고 우기면서 미래시점 버전을 현재로 맞춘답시고 구버전으로 바꿔치는 짓을 합니다)
-
github.com/golang-jwt/jwt v5.2.2
-
2025년에 보고된 헤더 파싱 과정의 과도한 메모리 사용(CVE-2025-30204)은 5.2.2에서 수정된 것으로 안내됩니다.
-
현재 사용 버전이 v5.2.2라면 해당 이슈의 영향권 밖일 가능성이 큽니다.
-
-
github.com/redis/go-redis/v9 v9.6.3
-
go-redis의
CLIENT SETINFO타임아웃 시 응답이 out-of-order로 엉킬 수 있는 이슈(CVE-2025-29923)는 9.6.3에서 고쳐졌다는 취약점 DB/리포트가 있습니다. -
현재 사용 버전이 v9.6.3이라면 이 이슈는 패치된 버전입니다.
-
-
github.com/gorilla/websocket v1.5.3
-
과거 DoS 계열 이슈(CVE-2020-27813)는 **취약 영향 버전이
< 1.4.1**로 분류되어 있고, 최신 버전 업그레이드를 권고해왔습니다. -
현재 사용 버전(v1.5.3)은 영향권 밖입니다.
-
| Model | Input | Cached input | Output |
|---|---|---|---|
| gpt-5.2 | $1.75 | $0.175 | $14.00 |
| gpt-5.1 | $1.25 | $0.125 | $10.00 |
| gpt-5 | $1.25 | $0.125 | $10.00 |
| gpt-5-mini | $0.25 | $0.025 | $2.00 |
자동으로 캐싱이 적용(5.2pro 제외)되는 등 전체 요금제 함정 및 과도한 토큰 소비 없음. 환각 망각 적어서 초보자도 안심 입문 가능. (1억 토큰당 평균 비용 $29.372 (5 및 5.1은 $20.98))
5.2로 20시간 정도 집중적으로 코딩해봤는데 동일한 프롬프트 상태에서도 코딩 스타일이 훨씬 체계적으로 바뀌었습니다. 5.1만해도 사용자에게 테스트를 하고 알려달라, 원하면 뭘 해주겠다는 식의 지시나 요구가 많았는데 5.2부터는 현저히 줄었습니다.
ChatGPT5 계열은, 코딩시 환각 및 망각이 타사 대비 압도적으로 적어서, IDE 없이 터미널 만으로 바이브코딩 하시는 경우에도 안정적인 결과를 얻으실 수 있습니다.
ChatGPT 5.2는 5.1대비 가격이 40% 인상되었습니다. 월정액으로 이용하시는 분들은 크게 체감되는 부분은 없으실 겁니다. ChatGPT의 과금 구조가 함정도 없고 과도한 토큰 소비를 하지 않기 때문에 기존 사용 패턴 유지하시더라도 큰 부담은 안 될 것 같습니다.
개인 개발자께서는 API호출이나 크레딧 선결제 후 기본제공량+크레딧 믹스로 풀타임으로 사용하시면 월구독료를 포함해서 한달에 약 $200에 육박할 수 있습니다. (수정)
* 추가 확인 사항 : 약 9시간 코딩에 투입해 봤는데 100토큰 전후 소비되던 페이스가 260토큰이나 소모되었네요...가격표 상으로는 40%소모지만 같은 안건에 대해 더 많은 토큰을 사용하고 있는 걸로 추정되며 하루 $10~$14달러 소모 페이스입니다. 그러면 크레딧으로 쓰는 것 보다 계정을 더 파는 것이 효율이 더 낫다 싶어서 하나를 더 파서 써봤는데 5시간 한도가 3.5~4시간 정도면 소진되고 2.5일이면 주간 한도에 도달해서 3개가 있어야 대응이 되겠다 싶어서 그냥 $200 플랜으로 전환해버렸고, 싱글 세션만 돌리면 5시간,주간 한도 모두 도달하지 않습니다.
두 개의 세션을 동시에 돌려야 5일에 한도에 도달할 가능성이 있어 보입니다.
CLAUDE Sonnet 4.5 : 애들 삥뜯는 동네 양아치 (회사가 뒤 봐줌)
자동 캐싱이 안 되서 요금제 전반에 큰 함정. 월렛과 추가 사용량 열어주고 방치하면 하루 $100 (40분에 약$10) 날아가는 모습을 볼 수 있음. API호출시에도 5분, 60분짜리 캐시를 각각 나눠서 입력(추가 요금)해놓고 써야해서 별도로 컨택스트 캐싱 프로그램을 만들어 쓸 필요 있음. (아마도 상용IDE들에는 관련 기능 있을 것으로 예상) 1억 토큰당 평균 비용 $48.795). 미친듯 문서를 생성하므로 Calude.md에 요청 외 문서 생성 금지 반드시 삽입!)

$20 플랜으로는 30분도 안 되서 5시간 제약으로 무용지물. (리밋 제한 걸리면 웹상의 일반 질문까지도 막혀버려서 정말 무쓸모) 추가 사용 켜면 요금폭탄 확정. 특별히 메인으로 써야할 필요성이 있는게 아니라면 $20으로 계정 두 개 정도 파서 깊은 디버깅 시키면 딱 맞다고 봅니다.
OPUS를 평가 대상에 넣지 않은 이유:
모든 모델은 하향증류를 통한 급나누기를 합니다. 하향증류의 경우 기본 특성이 승계되기 때문에 쏘넷이 가진 약점 대부분을 가지고 있다는 이야기라 5배라는 요금은 터무니 없다고 판단했습니다.
4.1버전은 코드 품질은 쏘넷과 대동소이 했고 고난이도의 디버깅에서 차이가 날텐데 MAX 20 사용시에도 한 시간 남짓이면 한도에 도달하니 제대로 써보기도 어려웠습니다.
지금은 2배로 내려왔으니 조금은 나아졌지만 그래도 2시간 30분이면 한도 도달이라 작업에 걸리적거리기만 할 것 같습니다. 제미나이 3 pro 울트라, ChatGPT5.2 pro 는 풀타임 코딩이 가능하데 비해 제약이 지나칩니다. API로 불러서 정확히 캐시 먹여가며 써보고 나중에 추가 평가 해보겠습니다. (캐싱 풀릴까봐 겁납니다만..)
Google gemini 3 pro : 양복 입은 치매 신사
GEMINI3는 3개월간 $120 으로 할인되는 울트라 플랜 이용 권장. 연속 코딩시 실토큰 기준 입력 3,500~4,000만 토큰 정도가 리미트 (5시간) 으로, 페이스 조절만 조금 하면 하루종일 코딩 투입도 가능합니다.
자동 캐싱이 적용되어 요금제 함정은 없음. 그러나 토큰 소모량이 다른 모델보다 10~20배 높으므로 주의. (1억 토큰당 평균 비용 $32.876)
많은 인기를 끌고 있는 제미나이3은 가장 환각이 심한 모델입니다. 특히 안 한 것을 했다고 착각하고, 오류가 생겨도 해당 내용을 확인도 안 하고 자신이 아는 기본코드를 꺼내서 덮어써서 디테일이 들어간 로직을 망쳐버리는 일이 잦습니다.
에코체임버도 심한 편입니다. 검색 기능을 꺼놓고 오늘 뉴스를 찾아달라고 하면 그럴듯한 가짜뉴스나 과거에 학습한 뉴스를 보여주면서 검색한 척 합니다. 컨텍스트내에 다른 뉴스의 검색결과가 존재하면 그걸 기가막히게 각색해서 자신이 찾은 것 처럼 말합니다. 그럼에도 불구하고 문장에 대한 이해력이 뛰어나고, 하나하나를 통제하면서 일을 시키면 빠르게 결과를 만들어내주기 때문에 당분간 안 쓸 수는 없을 것 같습니다.
* 토큰 사용량은 인풋+아웃풋+캐싱까지를 감안하여 자체 툴을 통해서 측정한 값입니다.
개인적 잡설
IT기획을 주로하면서 온세상 사람들에게 득이 되는 요상한 물건을 만들어보고 싶었었는데 항상 개인 자본으로 커버할 수준이 아니어서 꿈을 접으려다가, Ai덕에 35년 만에 바이브로 코딩에 복귀해서 약 4개월간 하루 평균 100커밋에 50만 라인 이상을 짰습니다. (과거의 코딩 경험은 6502, Z80A 어셈블러 약간..)
개념과 정보가 부족해서 첫 한 달 간 날뛰는 쏘넷을 바로잡겠다고 잠도 4~5시간만 자면서 여러가지 도구들을 만들어서 안정적으로 돌아가게 만들었는데 알고보니 그게 RAG, IDE, MCP 서버더군요.(물론 초보적 수준의 구현입니다)ㅠㅠㅠㅠ
지금은 지인들 위주의 테스트만 하고 있는데, 조만간 열어서 많은 지적을 받아볼 수 있으면 좋겠습니다.
초기에 이도저도 애매하게 비씨다는 선입견때문에; 저도 신기하게 chatgpt는 코딩용으로는 전혀안썼는데 말씀하신 글 읽어보니 구미가 당기네요. Antigravity 하고 궁합도 좋을까요?
chatGPT는 아직 앤티그래비티에서 선택할 수 없는 상태라 본서비스가 나와봐야 알 것 같습니다. 그러나 chatGPT는 시스템프롬프트 설정과 MCP서버 선정만 잘 하면 IDE 없이도 워낙 좋은 결과물이 나오기 때문에 당분간은 커맨드창+자작IDE 구조를 유지할 생각입니다.
참고로 클로드는 미국시간 금요일 (KST 14:00)부터 주말 기간에 멍청해지는 문제가 있습니다. 자연어 알아듣는 수준도 낮아지는 걸로 보아 주말 마다 업데이트+메인터넌스를 하면서 띵킹 레벨을 확 낮추는 게 아닌가 하는 의심이 들기도 합니다.
주말의 쏘넷은 haiku, Opus는 sonnet이 위장 취업하는 것일지도 모릅니다! ㅋ
코딩의 코자도 모르는 제가 텍스트로 어플을 만들고 있다는게 세상이 변해간다는게 느껴집니다.
코딩이 진짜 어려운데, 어느정도까지 이해하고 이걸 들어가야하나요?
파이썬 입문은 다 이해해야한다 수준인가요
사람마다 맞는 것이 있고 안맞는 것이 있죠. ai 코딩 보다는 ai를 활용하는 다른 분야를 적용해 보세요.
vercel, railway 조합을 쓰시나요?
아니면 백앤드와 프론트 구성은 어떻게 하시는지 궁금합니다.
코드는 plan 모드가 좋아서 그랬는데 리팩토닝에는 약점이 있어 cursor와 병행해서 씁니다.
그런데 반중력이랑 cursor도 계속 발전 중이라 지금 싯점에서도 우위라는 보장이 없습니다.
게다가 비용이 너무 비싸서 claude code를 통한 개발이 아닌 순수 model에서는 솔직히 가치가 없습니다. 성능도 ? 이구요.
물론 어느 에이전트나 그렇지만 규칙 설정이나 컨텍스트 사용 전략이 자신의 상황에 맞게 커스텀이 잘 되어있어야 된다고 생각합니다.
예를 들어 에이전트들은 기본적으로 풍부하게 내용을 생성해내는게 기본 목적이라서 "질문에 장황하게 대답하지 말고 요점과 원칙 위주로 간단하게 대답, 질문의 문맥이 이해가 안가면 반드시 사용자에게 추가 질문" 등을 규칙으로 넣어뒀습니다.
그리고 plan 모드는 사용 패턴 자체를 plan 형태로 하면 별로 필요가 없더라구요. 제 패턴은 질답을 통한 토론으로 요구사항 정리-> md에 구현계획 작성-> 3-4회 리뷰 후 md 문서 완성 -> 구현 이런식으로 씁니다. 현 세션의 context 가 꽉 찼을 때는 기존 세션을 compact 시키지 않고 새 세션을 열고 md 에 기록된 진척도를 보고 다음 작업 이어서 진행
글을 읽어보니 codex가 얼마나 좋은지 체험해보고 싶긴하네요. 😁
물론, 내돈이 아니라 회사가 내준다거나 하면 opus 쓸거같습니다 ㅋㅋㅋㅋㅋ
chat gpt만으로도 접근 가능할까요??
chat gpt로 코드를 받아서 vs code로 진행하면 되는건지.
요즘 너무 빠르게 변해서 어떻게 접근을 해야할지 모르겠네요.
기초적인 접근 방법을 알려주실 수 있을까요?
주력은 claude code opus 4.5이지만 codex로 5.2도 곧잘 씁니다.
언어별로 특징이 있는데,
앤트로피가 하네스를 기가막히게 잘해서, 유지보수하는 대규모 코드 구현하기에 opus 4.5가 최고라고 생각합니다.
gpt계열은 생각이 발랄해서 좀 아이디어가 필요한 버그나 구조를 잘 짜는데, 유지보수하기 어려운 코드를 만드는 경우가 좀 있더라구요
gemini는 말씀하신데로 메멘토 느낌이 있는데, 대신 폭넓은 지식으로 골고루 사고해야 할때, 그리고 공간적 물리적 이해가 필요할때 차원이 다르게 잘하더라구요.
결국 다 결제해서 씁니다...
CPU나 GPU의 캐시 메모리라는 개념에 익숙한 저는 두가지가 하나의 개념처럼 느껴지는데...어떻게 받아들이는 것이 편할까요?
컨텍스트는 입력된 내용 그대로를 말하는 것이므로 캐싱 할인의 대상이라고 보시면 되겠습니다.
제가 아직 API로는 안 써봐서 캐싱 개념에 대해 감이 없었네요 ㅠㅠ
저 역시도 벤치와 상관 없이 제가 직접 사용할 때 가장 결과물이 만족스러웠었거든요.
클로드에게는 코드가 좀 긴걸 던져도 30회 정도까지는 신뢰가 좀 있었고,
(opus는 거들떠보지도 않음. sonnet은 30회 넘어가면 고장남)
GPT나 Gemini는 코드에 군더더기가 너무 많이 끼더라구요.
그러다가 Gemini 3가 나오면서 성능이 많이 향상된 것 같아서 요새는 Gemini를 주로 씁니다.
다만 사용 방식이 좀 달라진게, 웬만하면 짧게짧게 요청을 해요.
코드를 길게 보낼 때는 검토를 엄격하게 합니다.
특히 diff checker같은 것도 동원을 해서 내가 요구한 범위 이상으로 멋대로 고치거나 군더더기를 담은 것은 없는지도 체크해요.
그리고 이제는 어느 하나를 주력으로 사용하지 않고, Claude/GPT/Gemini 다 섞어씁니다 ㅋㅋㅋ
제가 전에 남겼던 댓글인데,
사람들도 저마다 다 강점과 약점이 있고 특성/성향 같은 것들이 있잖아요?
그냥 각각의 AI 모델들이 하나의 사람이라고 생각하고 각자가 잘하는 것 위주로 쓰고,
어떨때는 사용하는 모든 AI 모델에게 같은 질문을 던지고 답을 조합해서 사용하고 합니다.
벤치 결과는 제가 느끼는 것과는 조금 다르다는 점도 확인이 되고, 다양하게 참고할만한 부분들이 있어서 도움이 되었습니다. 잘봤습니다.