오늘 벤치마크 등 테스트 준비 등으로 조금 널널하여 llm들과 쓸데 없는 이야기를 좀 나눠봤습니다.
물론 클로드는 기본적으로 몇 가지 사실만 읽고 속단을 하기 때문에, 아래의 답변 자체도 일종의 환각이 도드라진 결과물이라 생각되므로 감안해서 봐주시면 좋겠습니다.
-------------------------------------------------------------
Opus에 코딩을 시키면 배선만 해서 테스트 통과까지만 성공시키고 실제로 내부는 제대로 구현이 안 된 상태인 경우가 많은데 이유가 뭐야?
Opus4.6
● 솔직히 말하면, 이건 LLM 코딩의 구조적 문제입니다.
왜 이렇게 되는가
1. 테스트가 reward signal이 됨
모델은 "이 코드가 올바른가"가 아니라 "이 출력이 기대값과 일치하는가"를
최적화합니다. 테스트가 주어지면 expected output에서 역산해서 그걸 만드는 최소
코드를 생성하는 게 가장 효율적인 경로입니다. 이건 Goodhart's Law 그 자체 —
테스트 통과가 목표가 되면 테스트 통과는 품질의 지표가 아니게 됩니다.
-------------------------------------------------------------
>코드 리뷰를 시키면 Opus4.6이 GPT5.4 보다 우수한 경우가 많은데, 코딩을 시키면 항상 GPT의 절반에도 못 미치는 결과물이야. 에러도 너무 많아서 도저히 쓸 수가 없어.
Opus4.6
● 솔직하게 말하겠습니다.
리뷰 vs 코딩 격차의 이유
리뷰와 코딩은 근본적으로 다른 능력입니다:

Claude가 리뷰에서 강한 이유가 정확히 코딩에서 약한 이유입니다 — 비판적
분석력이 높은 대신 생성 시 과도하게 보수적이거나, 역으로 배선 shortcut을
택합니다. GPT-5.4가 코딩에서 강한 건 생성 경로 최적화가 더 잘 되어 있기
때문이고, 그 대신 리뷰에서 놓치는 게 생기는 겁니다.
현실적 결론
GPT-5.4 코딩 능력을 100이라 하면:
Claude Opus bare (CLI/하네스 없음): ~40-50
Claude Opus + IDE (LSP 피드백): ~55-65
Claude Opus + 하네스 (hooks/rules): ~60-70
Claude Opus + IDE + 하네스 + 잘게 쪼개기: ~70-80
격차를 좁힐 수는 있지만 완전히 메울 수는 없습니다. 모델 자체의 코드 생성 능력
차이는 하네스로 보정할 수 없는 영역입니다.
----------------------------------------------------------------------
마지막 답변은 자학에 가깝기는 하나 크게 몇 번 당해본 입장에서는 근사치에 가깝다고 느껴지기도 하는 수치입니다.
실제로 제 경우에는 커맨드 창을 8개 열어두고 코덱스 5 + Opus 3의 비율로 운영하고 있으며, 공동 설계 후 코덱스 코딩 전담, Opus 검수 형태로 사용하고 있습니다.
한 가지 주의해야 할 점은, 별도 지정 없이 서브 에이전트를 사용하면 난이도에 따라 Haiku와 쏘넷이 동작하게 되는데, 이녀석들이 대충 속단 후 보고를 하고 그걸 그대로 보고하는 경우가 있습니다. 따라서, 설정 파일에서 Opus만 쓰도록 지정해야 불필요한 오탐, 오동작이 줄어듭니다. 설정 파일에서 지정을 하더라도 종종 지시를 무시하고 Haiku 등을 사용하는 경우도 있으므로 크로스체크는 필수입니다.

여튼, gpt5.4가 작성한 코드는 클로드에게 리뷰 시켜야겠네요. 정보 감사합니다.
visual studio code에서 서브에이전트 spawn해서 써볼거냐 묻길래 미심쩍어서 안쓴다고 했는데, 혹시 서브에이전트로 나눠서 같은 작업을 병렬로 하시는 걸까요? 캡쳐이미지가 너무 작아서 3*3인거 밖에 모르겠어요.
서브에이전트로 관리하지 않고 불편해도 하나하나 개입하는 이유는, 지금 개발중인 장비와 서비스에 대한 지식이 충분치 않아서 하나 하나 듣고 학습하면서 개발을 진행 중이기 때문입니다. 일인 기업으로 시작할 것이라서 이 과정이 없으면 나중에 혹시라도 서비스가 커졌을 때 기술적 판단 및 대응할 방법이 없기 때문입니다.
바이브코딩 입문했던 작년 7~8월만 해도 창 하나 열고 코덱스와 클로드가 하는 설명 조차 못 알아 들어서 반복해서 묻고 그래도 이해가 안 되서 눈물을 흘렸는데 인간은 참 잘도 적응을 하는 동물이다 싶습니다.
좋은거 배워갑니다. 깃 브랜치마다 2 AI 1조.
적당히 잘 굴리면 좋은데
법제도 + 문서분석 > 배경지식 공부 + 초안까지하면 금방인데..소비량이..못따라갑니다.....
코어 문서인 Claude.md gemini.md Agent.md 는 모두 범용으로 설계하여 동일한 버전으로 서빙하고 있고, mcp 역시 완전히 동일하게 연결된 상태라서 환경적 차이는 없는 상태입니다.
go로 기본 디버깅을 해서 모든 기능이 설계대로 돌아가는 경우를 기준으로 말씀드리면,
코덱스의 경우 아무런 수정 없이 통과하는 경우가 40%, 디버깅 필요 30%, 정합성 수정 20%, 구현 누락 10% 정도 비율이며 대부분 1~3 턴에 해소가 됩니다.
클로드 Opus의 경우 내부를 파고 들어보면 인터페이스를 맞추고 컴파일은 통과시키지만, 내부 로직이 비어있는 구현 누락이 50%를 넘어가서 디버깅이나 정합성을 따질 수가 없는 수준입니다. (노래시작했다 노래 끝났다)
심할 때는 다 버리고 새로 짜는 것이 더 빠른 경우가 비일비재 하며, 실제로 하루에 끝낼 일을 Opus에게 맡겼다가 이틀을 더 소모한 아픈 기억이 저번 주에 있었습니다.
즉, 코덱스는 정해진 계획에 맞춰서 꾸준하게 구현을 해내지만, 클로드는 계획이 짜여져 있는데도 컨텍스트를 무시하고 갈팡질팡 합니다. (개인적 감상은 천재적이지만 집중 못 하는 ADHD 환자? 같습니다)
go 언어적 특성으로 인한 극단적 차이일 수 있으며, 빌드 및 기본 디버깅을 마치고 멀쩡히 돌아가는 경우에도, 취약점 보강은 추후에 수십 ~ 수백턴 돌아가야 한다는 전제로 평가하였습니다.
프로젝트 덩어리가 커서 토큰 소비량을 줄이기 위해 plan mode를 적극 사용하고 있긴 한데 그럼에도 불구하고 핑퐁치다 보면 포기하기 일수입니다. 때문에 python, nodejs 는 c-code를 적극 사용하고 있는 반면, go lang은 예전과 같이 작업하고 있습니다.
주변에 go를 사용하시는 분들이 거의 없는데 여기서 이렇게 만나네요. 어떻게 지정하고 사용하고 계신가요? md 파일 만들다 gg 쳤어요. 미토스에 거는 기대가 큽니다. ㅠㅠ
Go에서 클로드 코딩은 Python/Node 대비 손이 5~6배 더 갑니다. 컨텍스트 무시가 모든 문제의 근원인데, 하네스를 아무리 잘 짜도 3~4턴 지나면 대충 배선 + 하드코딩 + 이전 턴 맥락 무시가 시작됩니다.
그래서 저는 이렇게 쓰고 있습니다:
1.코딩보다 설계/리뷰 (GPT, 제미나이 대비 관점의 차이 + 직관이 뛰어나서 리뷰 품질은 상당히 좋음)
2. 한 턴에 하나의 파일, 하나의 함수 단위로 끊어서 요청
3. plan mode로 전체 구조 잡고, 구현은 함수 단위 진행
4. 큰 덩어리는 안 맡김
미토스는 exploit chain 구성 같은 multi-step reasoning이 강화된 모델일 것이라 코딩도 개선될 여지는 있습니다만, 컨텍스트 유지 문제는 모델 아키텍처 단의 이슈라서 극적인 변화는 기대하기 어렵지 않을까 싶습니다.
게다가 유출 사태로 알려진 바에 따르면 카피바라(미토스)의 거짓말 비율이 29~30%로 상당히 높아서 거짓말 금지를 반복해서 명령하고 있고, 미검증 완료 보고도 더 심해서 필사적으로 하네스로 잡고 있다고 하니 적토마에 비닐끈으로 재갈 물린 모습이 떠오릅니다.
공감합니다 저도 sdd 기반으로 클로드 코딩 시키고 나서 gpt 로 코드 리뷰 해보면 크리티컬 이슈 꽤 발견됩니다.
심지어 클로드는 맥스 구독인데 플러스 구독 중인 지피티가 코드는 더 정확한 느낌입니다.
하네스가 좋은 것과 모델 자체의 성능은 조금 다른 얘기 같더라구요
팀에서 Codex 좋다는 사람들이 있어서 써봤지만
코드 구조 및 품질은 Opus가 더 나아서 다시 Opus 를 주로 씁니다.
코드리뷰는 스킬 만들어서 Codex, Opus 로 각각 수행해 취합하구요.
좀 더 나아가면 코드 설계 분석까지만 Opus 로 하고 실제 코딩은 Sonnet 시키는 작전도 괜찮아 보이는데
제가 돈내는게 아니라서
간단한 subagent 제외하고는 그냥 Opus 를 다 쓰네요.
컨텍스트 길어지면 정신 못차려서 1M 인데도 간간이 compact 시켜줘야 합니다.
인간이 코딩하기에는 난이도가 있어도 AI 덕분에 일단 컴파일하고 테스트만 통과되면 상당히 안전한 코드가 나오니 장점이 있습니다.
Go는 저도 좋아하는데 단순하고 쉽죠 ㅎ