CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·일본산당 ·방탄소년당 ·MaClien ·자전거당 ·안드로메당 ·개발한당 ·이륜차당 ·AI당 ·냐옹이당 ·소시당 ·오른당 ·소셜게임한당 ·와인마신당 ·위스키당 ·바다건너당 ·PC튜닝한당 ·클다방 ·스팀한당 ·패스오브엑자일당 ·노젓는당 ·나스당 ·어학당 ·걸그룹당 ·육아당 ·IoT당 ·날아간당 ·키보드당 ·리눅서당 ·찰칵찍당 ·달린당 ·가상화폐당 ·골프당 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·사과시계당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·캠핑간당 ·문명하셨당 ·클래시앙 ·콘솔한당 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·디아블로당 ·개판이당 ·동숲한당 ·날아올랑 ·전기자전거당 ·e북본당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·물고기당 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·젬워한당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·꼬들한당 ·덕질한당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·영화본당 ·MTG한당 ·소리당 ·노키앙 ·적는당 ·방송한당 ·그림그린당 ·소풍간당 ·심는당 ·라즈베리파이당 ·품앱이당 ·리듬탄당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·축구당 ·나혼자산당 ·스타한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·여행을떠난당 ·터치패드당 ·트윗당 ·창업한당 ·VR당 ·시계찬당 ·WebOs당 ·WOW당 ·윈폰이당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

모두의공원

클로드는 솔직합니다 21

6
2026-04-14 17:59:26 14.♡.43.15
Mr.UN

오늘 벤치마크 등 테스트 준비 등으로 조금 널널하여 llm들과 쓸데 없는 이야기를 좀 나눠봤습니다.


물론 클로드는 기본적으로 몇 가지 사실만 읽고 속단을 하기 때문에, 아래의 답변 자체도 일종의 환각이 도드라진 결과물이라 생각되므로 감안해서 봐주시면 좋겠습니다.


-------------------------------------------------------------

Opus에 코딩을 시키면 배선만 해서 테스트 통과까지만 성공시키고 실제로 내부는  제대로 구현이 안 된 상태인 경우가 많은데 이유가 뭐야?


Opus4.6

● 솔직히 말하면, 이건 LLM 코딩의 구조적 문제입니다.

  왜 이렇게 되는가

  1. 테스트가 reward signal이 됨

  모델은 "이 코드가 올바른가"가 아니라 "이 출력이 기대값과 일치하는가"를

  최적화합니다. 테스트가 주어지면 expected output에서 역산해서 그걸 만드는 최소

  코드를 생성하는 게 가장 효율적인 경로입니다. 이건 Goodhart's Law 그 자체 —

  테스트 통과가 목표가 되면 테스트 통과는 품질의 지표가 아니게 됩니다.


-------------------------------------------------------------

>코드 리뷰를 시키면 Opus4.6이  GPT5.4 보다 우수한 경우가 많은데, 코딩을 시키면 항상 GPT의  절반에도 못 미치는 결과물이야. 에러도 너무 많아서 도저히 쓸 수가 없어.


Opus4.6 

● 솔직하게 말하겠습니다.

  리뷰 vs 코딩 격차의 이유

  리뷰와 코딩은 근본적으로 다른 능력입니다:

ksnip_20260414-174313.png


  Claude가 리뷰에서 강한 이유가 정확히 코딩에서 약한 이유입니다 — 비판적

  분석력이 높은 대신 생성 시 과도하게 보수적이거나, 역으로 배선 shortcut을

  택합니다. GPT-5.4가 코딩에서 강한 건 생성 경로 최적화가 더 잘 되어 있기

  때문이고, 그 대신 리뷰에서 놓치는 게 생기는 겁니다.


현실적 결론

GPT-5.4 코딩 능력을 100이라 하면:

  Claude Opus bare (CLI/하네스 없음):  ~40-50

  Claude Opus + IDE (LSP 피드백):      ~55-65

  Claude Opus + 하네스 (hooks/rules):  ~60-70

  Claude Opus + IDE + 하네스 + 잘게 쪼개기: ~70-80


  격차를 좁힐 수는 있지만 완전히 메울 수는 없습니다. 모델 자체의 코드 생성 능력

  차이는 하네스로 보정할 수 없는 영역입니다.

----------------------------------------------------------------------


마지막 답변은 자학에 가깝기는 하나 크게 몇 번 당해본 입장에서는 근사치에 가깝다고 느껴지기도 하는 수치입니다. 

실제로 제 경우에는 커맨드 창을 8개 열어두고 코덱스 5 + Opus 3의 비율로 운영하고 있으며, 공동 설계 후 코덱스 코딩 전담, Opus 검수 형태로 사용하고 있습니다.


한 가지 주의해야 할 점은, 별도 지정 없이 서브 에이전트를 사용하면 난이도에 따라 Haiku와 쏘넷이 동작하게 되는데, 이녀석들이 대충 속단 후 보고를 하고 그걸 그대로 보고하는 경우가 있습니다. 따라서, 설정 파일에서 Opus만 쓰도록 지정해야 불필요한 오탐, 오동작이 줄어듭니다. 설정 파일에서 지정을 하더라도 종종 지시를 무시하고 Haiku 등을 사용하는 경우도 있으므로 크로스체크는 필수입니다. 

image (11).jpg


Mr.UN 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [21]
그시절그때
IP 218.♡.203.3
04-14 2026-04-14 18:02:09 / 수정일: 2026-04-14 18:03:01
·
커맨드 창을 8개를 연다는 건, CLI 환경을 8개를 동시에 실행한다는 말씀인가요? 저는 pc 2개에 비주얼스튜디오 코드 하나씩 열어놓고서 동시에 일시킵니다만. 한 pc에서 두개 동시에 돌리면 느려지는 거 같아서.

여튼, gpt5.4가 작성한 코드는 클로드에게 리뷰 시켜야겠네요. 정보 감사합니다.
Mr.UN
IP 14.♡.43.15
04-14 2026-04-14 18:04:02 / 수정일: 2026-04-14 18:06:49
·
@그시절그때님 네 이렇게 쓰고 있습니다. 트래픽 통합제어가 아니고 세션별 제어로 보입니다. 단점은 $200 플랜도 2~3일 정도면 주간 한도에 도달할 정도로 토큰이 빠르게 녹는 것 뿐인 것으로...
그시절그때
IP 218.♡.203.3
04-14 2026-04-14 18:09:30
·
@Mr.UN님 와....3*3 9개 아닌가요???? ㅎㄷㄷ

visual studio code에서 서브에이전트 spawn해서 써볼거냐 묻길래 미심쩍어서 안쓴다고 했는데, 혹시 서브에이전트로 나눠서 같은 작업을 병렬로 하시는 걸까요? 캡쳐이미지가 너무 작아서 3*3인거 밖에 모르겠어요.
Mr.UN
IP 14.♡.43.15
04-14 2026-04-14 18:15:47 / 수정일: 2026-04-14 18:21:19
·
@그시절그때님 브랜치를 나눠서 각각 다른 일을 2 Ai 1조 형태로 돌립니다. 각 창마다 필요시에는 서브에이전트가 알아서 돌아가니까 풀로드시에는 수 십 개 에이전트가 동작하는 듯 합니다.

서브에이전트로 관리하지 않고 불편해도 하나하나 개입하는 이유는, 지금 개발중인 장비와 서비스에 대한 지식이 충분치 않아서 하나 하나 듣고 학습하면서 개발을 진행 중이기 때문입니다. 일인 기업으로 시작할 것이라서 이 과정이 없으면 나중에 혹시라도 서비스가 커졌을 때 기술적 판단 및 대응할 방법이 없기 때문입니다.

바이브코딩 입문했던 작년 7~8월만 해도 창 하나 열고 코덱스와 클로드가 하는 설명 조차 못 알아 들어서 반복해서 묻고 그래도 이해가 안 되서 눈물을 흘렸는데 인간은 참 잘도 적응을 하는 동물이다 싶습니다.
그시절그때
IP 218.♡.203.3
04-14 2026-04-14 18:17:11
·
@Mr.UN님 오 마이 갓....새로운거 그만 나왔으면 좋겠어요 ㄷㄷㄷ

좋은거 배워갑니다. 깃 브랜치마다 2 AI 1조.
혀기짱
IP 211.♡.28.33
04-14 2026-04-14 18:08:52
·
클로드를 업무에 적용 차용하고 있습니다. 덕분에 더 일이 많아진건 함정이랄까요. 아주 그냥 쉴틈이 없습니다. 예전에는 사람이 판단해야 하는 영역에서 뜸을 들이면서 쉬고 그랬는데 지금은 작업의 breakpoint가 딱히 없다보니 담탐이 없는 사람 입장에서는 그냥 기계가 되어 버린듯한 느낌이랄까요 ㅋ
삭제 되었습니다.
Mr.UN
IP 14.♡.43.15
04-14 2026-04-14 18:13:02
·
@혀기짱님 맞습니다. 과거에는 며칠 내 작성 보고하라는 문서를 이젠 수 십 분 ~몇 시간 내로 요구 당하죠...그것 자체를 또 고도의 자동화로 넘어가는 분들도 많더군요. ㅋ
크레이지호
IP 106.♡.243.34
04-14 2026-04-14 18:17:02
·
@혀기짱님 맞아요. 회사에서 유료요금제 지원 안해줬으면 좋겠습니다.....
적당히 잘 굴리면 좋은데
법제도 + 문서분석 > 배경지식 공부 + 초안까지하면 금방인데..소비량이..못따라갑니다.....
nariyada
IP 112.♡.25.78
04-14 2026-04-14 18:20:26
·
claude는 사용량 제한이 얼마 안남거나 컨텍스트가 크면 대충 마무리하는 특성이 있더군요.
크리스토포로
IP 223.♡.2.128
04-14 2026-04-14 18:38:22
·
저는 주로 적절한 rule 환경에서 claude로 개발하는데, 어떤 면에서 codex의 개발 능력이 40% 이상 좋다고 느껴지시나요? 비교 케이스가 있다면 부탁드려요~!
Mr.UN
IP 14.♡.43.15
04-14 2026-04-14 19:55:03 / 수정일: 2026-04-14 19:59:01
·
@크리스토포로님 작업 순서는 기획 -> 설계 문서 작성 -:> 스펙킷 기반 todo 생성 -> 정합성 및 계획 더블 체크 -> 코딩의 순으로 진행 합니다.

코어 문서인 Claude.md gemini.md Agent.md 는 모두 범용으로 설계하여 동일한 버전으로 서빙하고 있고, mcp 역시 완전히 동일하게 연결된 상태라서 환경적 차이는 없는 상태입니다.

go로 기본 디버깅을 해서 모든 기능이 설계대로 돌아가는 경우를 기준으로 말씀드리면,

코덱스의 경우 아무런 수정 없이 통과하는 경우가 40%, 디버깅 필요 30%, 정합성 수정 20%, 구현 누락 10% 정도 비율이며 대부분 1~3 턴에 해소가 됩니다.

클로드 Opus의 경우 내부를 파고 들어보면 인터페이스를 맞추고 컴파일은 통과시키지만, 내부 로직이 비어있는 구현 누락이 50%를 넘어가서 디버깅이나 정합성을 따질 수가 없는 수준입니다. (노래시작했다 노래 끝났다)
심할 때는 다 버리고 새로 짜는 것이 더 빠른 경우가 비일비재 하며, 실제로 하루에 끝낼 일을 Opus에게 맡겼다가 이틀을 더 소모한 아픈 기억이 저번 주에 있었습니다.

즉, 코덱스는 정해진 계획에 맞춰서 꾸준하게 구현을 해내지만, 클로드는 계획이 짜여져 있는데도 컨텍스트를 무시하고 갈팡질팡 합니다. (개인적 감상은 천재적이지만 집중 못 하는 ADHD 환자? 같습니다)

go 언어적 특성으로 인한 극단적 차이일 수 있으며, 빌드 및 기본 디버깅을 마치고 멀쩡히 돌아가는 경우에도, 취약점 보강은 추후에 수십 ~ 수백턴 돌아가야 한다는 전제로 평가하였습니다.
혀기짱
IP 211.♡.28.33
04-14 2026-04-14 20:00:04 / 수정일: 2026-04-14 20:01:16
·
@Mr.UN님 go에서 사용하기 어떤가요? 저희가 회사 메신저로 golang + rn 조합으로 개발 및 운영하고 있는데, claude code에 아무리 디테일하게 프로젝트를 설정해도 코드를 종종 말아먹습니다. 메시지 시나리오를 하드코딩해 버리는 상황도 생깁니다. gitlab이 없었으면 맨붕올뻔한적도 여러번 이거든요.

프로젝트 덩어리가 커서 토큰 소비량을 줄이기 위해 plan mode를 적극 사용하고 있긴 한데 그럼에도 불구하고 핑퐁치다 보면 포기하기 일수입니다. 때문에 python, nodejs 는 c-code를 적극 사용하고 있는 반면, go lang은 예전과 같이 작업하고 있습니다.

주변에 go를 사용하시는 분들이 거의 없는데 여기서 이렇게 만나네요. 어떻게 지정하고 사용하고 계신가요? md 파일 만들다 gg 쳤어요. 미토스에 거는 기대가 큽니다. ㅠㅠ
Mr.UN
IP 14.♡.43.15
04-14 2026-04-14 21:02:21 / 수정일: 2026-04-14 22:31:48
·
@혀기짱님 약 6개월간 Go 35만 라인 정도 작성한 것 같습니다. 장비(서버)는 무사히 완성되어서 벤치마크 준비 중이고, 앱은 아마도 천 단위 취약점을 잡아줘야 사람이 될 것 같습니다.

Go에서 클로드 코딩은 Python/Node 대비 손이 5~6배 더 갑니다. 컨텍스트 무시가 모든 문제의 근원인데, 하네스를 아무리 잘 짜도 3~4턴 지나면 대충 배선 + 하드코딩 + 이전 턴 맥락 무시가 시작됩니다.

그래서 저는 이렇게 쓰고 있습니다:
1.코딩보다 설계/리뷰 (GPT, 제미나이 대비 관점의 차이 + 직관이 뛰어나서 리뷰 품질은 상당히 좋음)
2. 한 턴에 하나의 파일, 하나의 함수 단위로 끊어서 요청
3. plan mode로 전체 구조 잡고, 구현은 함수 단위 진행
4. 큰 덩어리는 안 맡김

미토스는 exploit chain 구성 같은 multi-step reasoning이 강화된 모델일 것이라 코딩도 개선될 여지는 있습니다만, 컨텍스트 유지 문제는 모델 아키텍처 단의 이슈라서 극적인 변화는 기대하기 어렵지 않을까 싶습니다.
게다가 유출 사태로 알려진 바에 따르면 카피바라(미토스)의 거짓말 비율이 29~30%로 상당히 높아서 거짓말 금지를 반복해서 명령하고 있고, 미검증 완료 보고도 더 심해서 필사적으로 하네스로 잡고 있다고 하니 적토마에 비닐끈으로 재갈 물린 모습이 떠오릅니다.
망고덮밥
IP 1.♡.155.25
04-14 2026-04-14 21:43:46
·
@Mr.UN님
공감합니다 저도 sdd 기반으로 클로드 코딩 시키고 나서 gpt 로 코드 리뷰 해보면 크리티컬 이슈 꽤 발견됩니다.
심지어 클로드는 맥스 구독인데 플러스 구독 중인 지피티가 코드는 더 정확한 느낌입니다.
하네스가 좋은 것과 모델 자체의 성능은 조금 다른 얘기 같더라구요
크리스토포로
IP 223.♡.139.26
04-15 2026-04-15 08:10:41
·
@Mr.UN님 말씀들어보니 codex cli도 동일환경으로 구성해서 사용을 해보아야겠네요. 자세한 설명 감사드립니다!
Mr.UN
IP 14.♡.43.15
04-15 2026-04-15 15:58:30
·
@망고덮밥님 기본적으로 도메인 지식은 동일하고 증류로 인해 좀 흐리게 보일 뿐이고 코드는 기본 영문이라서 모델간 리뷰 능력 차이는 거의 없다고 보셔도 될 것 같습니다.
Mr.UN
IP 14.♡.43.15
04-15 2026-04-15 15:58:45
·
@크리스토포로님 별말씀을요. 즐거운 코딩 되세요!
zr
IP 96.♡.204.94
04-14 2026-04-14 22:24:09 / 수정일: 2026-04-14 22:25:28
·
저는 Rust를 주로 쓰는데
팀에서 Codex 좋다는 사람들이 있어서 써봤지만
코드 구조 및 품질은 Opus가 더 나아서 다시 Opus 를 주로 씁니다.
코드리뷰는 스킬 만들어서 Codex, Opus 로 각각 수행해 취합하구요.
좀 더 나아가면 코드 설계 분석까지만 Opus 로 하고 실제 코딩은 Sonnet 시키는 작전도 괜찮아 보이는데
제가 돈내는게 아니라서
간단한 subagent 제외하고는 그냥 Opus 를 다 쓰네요.
컨텍스트 길어지면 정신 못차려서 1M 인데도 간간이 compact 시켜줘야 합니다.
Mr.UN
IP 14.♡.43.15
04-15 2026-04-15 15:55:02
·
@zr님 Rust 쓰시는 분이 계시네요! Go 와 Rust 중에서 고민하다가 go로 개발을 해왔는데, WASM 때문에 Rust를 사용해야할 상황이 되어 버렸습니다. Go 시작할 때도 무서웠는데 Rust도 첫 발 디디기 전의 압박이 상당하네요..
zr
IP 96.♡.204.94
04-16 2026-04-16 00:30:51
·
@Mr.UN님 AI 가 알아서 코드 만드니까 큰 그림 설계하고, 구현 방향만 잘 잡아주면 됩니다.
인간이 코딩하기에는 난이도가 있어도 AI 덕분에 일단 컴파일하고 테스트만 통과되면 상당히 안전한 코드가 나오니 장점이 있습니다.
Go는 저도 좋아하는데 단순하고 쉽죠 ㅎ
Mr.UN
IP 14.♡.43.15
04-16 2026-04-16 11:48:26
·
@zr님 댓글 감사합니다. 맞습니다, 언제 공부하나를 고민하는 게 아니라 할까 말까만 결정하면 되는 시대가 되어 버렸으니 말입니다..
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.