바이브 코딩을 주로 파일 단위 수정이나 작성 계획을 이야기하면서
작업해왔는데 아예 자율성을 주고 '기능 단위' 전체를 스스로 완성하도록 하니
결과가 되려 더 나은 기분입니다?
'뭔가, 뭔가'라는 불안감이 있어서 통 크게? 맡기지를 못했었는데요.
어제 replit이라는 사이트에서 웹 하나를 상세 프롬프팅으로 대부분의
기능 초안까지 구현해주는 걸 보고... gemini pro랑 claude 4를 이용해서
'큰 단위'의 작업을 뭉텅이로 넘겨주듯이 해봤는데요.
잘 되네요. 차라리 gemini를 2.5 pro부터, claude를 4부터 사용했다면
뭉텅이로 넘길 생각을 했을건데.. 제미나이는 바드 시절부터 썼고
클로드도 초반부터 써와서 '업그레이드 된' 점을 너무 간과한 게 아닌가
싶을 정도로 잘 뽑아주네요.. 물론 아주 고급 코드나 복잡한 관계가 얽힌
코드가 아니라서 그런 부분도 있겠지만요..
기능의 목표, 그 기능이 유기적으로 작용할 기능들, 코드 작성 방식, 프로젝트 최종 목표..
등등을 참조로 걸어줬고요. 의존성을 가지게 될 DB나 코드들 정리 내역까지 참조해서
정합성을 1 목표로 추구하도록 프롬프팅 해줬습니다. 아, 실제 사용자의 사용 시나리오도
세분화해서 넣어줬고요. 시나리오에 따라서 빠진 내역에 대한 체크까지 요청했고요.
결과는.. 되려 완성도나 코드 일관성 면에서 파일 단위로 끊어서 요청하던 것 보다
훨씬 더 나은 모습을 보여주는 것 같습니다..?
물론 세부적인 부분은 손 볼 부분이 있습니다만, 파일 단위로 요청했을 때 보다
직접 손 코딩이나 체크해야 되는 부분이 확 줄어드는게 체감돼요.
예전부터 써오다 보니 코딱지 만한 컨텍스트랑..
크다고 홍보는 하는데 체감은 절대 안되던.. 막상 참조 많이 걸어버리면
엉뚱한 답만 뽑아내던 예전 버전 LLM들에 가스라이팅이 많이 돼서
컨텍스트 용량을 자체적으로 고려하고 참조도 최소한으로 걸고 했었는데요.
이번엔 필요한 내용들 참조로 우다닥 걸고서 기능 단위로 맡겼는데
추론 모델이라 좀 느리지만.. 대충 10분 정도 혼자서 뚝딱뚝딱 하더니
A to Z기능 뚝딱이고 테스트 해보니 웬걸? 한 번의 오류 없이
작동하네요...ㄷㄷ
다만! 제미나이는 없는 파일을 확인 했다고 구라를 치거나
터미널에서 오류난 내역이 있음에도 '성공적으로...'라고 할루시네이션으로
"했다 치고~"로 넘어가는 게 좀 많다고 느껴졌습니다. claude 4가
컨텍스트 용량은 훨씬 작은데도 어찌 제미나이 프로보다 더 똑똑한
느낌이 드네요. 바로 얼마전 까지만 하더라도 제미나이가 코딩에
1황 느낌이었는데..
제미나이는 중간중간 필연적으로 생기는 린터 오류도 일일히 점검한다던지
사용자에게 보고하는 바람에 연속적 작업에 지나치게 긴 텍스트가
다음 프롬프트의 컨텍스트 복잡화에도 영향을 많이 주고요.
프롬프팅으로 간결하고 짧은 답, 필연적 발생 린터 오류등에 대해서는
답변을 하지 않도록 설정해놔도 GPT, Claude는 말을 잘 듣는데
동일 프롬프트에서 유독 제미나이가 쌩(!!)을 많이 까네요.
뭐 여튼 그렇습니다. 문득 드는 생각이...
AI발전이 편리하기는 참 편리한데.. 지금은 뭐랄까 발전 속도에 비해
산업 현장에 적용되는 속도가 느린 상황이다..?로 보이고...
GPT가 퍼져나가던 것 처럼 활용도가 사회 전반에 걸쳐서 올라간다면
날아가는 일자리는 가속화 될 게 불보듯 뻔해질 것 같아..
걱정도 되고 뭐 여러가지 생각이 드네요..ㅎㅎ
task-master 와 비슷하게 프로젝트 명세와 태스크 관리를 위한 체계를 구축하고,
지금 하고 계신 것처럼 내가 구체적으로 명세해줘야 할, 타협할 수 없는 포인트나 구체적인 설명이 필요한 부분은 따로 문서 하나 작성하고 참고하도록 하고, 작업의 업데이트 상황에 맞춰 지속적으로 업데이트 하라고 말해 주니 코드가 좀 더 길어지고 프로젝트가 조금 더 복잡해 져도 더 작업결과물이 낫다고 느꼈습니다.
제미나이는 할루시에이션도 문제인데, cursor에서 내부 툴 (grep, file access를 이용한 직접 참고) 등을 클로브보다 덜 적극적으로 사용한다고 느껴지는데, agent모드로 동작할 때 종종 구현의 상세나 큰그림에 대한 몰이해 때문에 문제가 생기는 경우가 있었습니다. 특별한 지침이 없이도 툴 사용을 가장 공격적으로 하면서, 탐구적으로 일을 한다고 느끼는 모델은 클로드였습니다.
그리고 제 개인적인 경험은 클로드/제미나이 모두 acceptance criteria 같은거 지정해 줬을 때, 대상물에 대한 긍정편향 이라고 할까 아니면 게으름이나 나이브함이라고 봐야할까 그런것이 있고, 검토만큼은 같은 프롬포트 상에서 o3가 가장 억까에 가까울 정도로 상세하게 점검하는 경향이 있어서 o3 --> claude/gemni 교차 검토를 하도록 했더니 좀 나았습니다.
예쁜 구글...형... 머티리얼 디자인 인터페이스 요소 가지고 피씨/ 모바일 웹에서 동작하는 vue기반 웹 제작 같은거 해줭... 사양은 이런 인풋과 이런처리가 필요해...
이런식으로 작업도 될까요.
뭔가 좋은건 많아보이는데 구독같은게.필요할거같은데 너무 많아서... 걍 기존대로 하네요.
뭐가 너무 많으면... 손대기가 힘들군요
국산으로 vooster가 있는데, 지금 아마 무료로 알고 있으니 이용해 보셔도 좋을 것 같습니다. 다만 vooster 의 prd, trd 생성 내용은 개인적으로 조금 아쉽습니다. 여러가지 정황상 아마 프론티어 모델이라고 할만한 걸 이용해 만들지 않는 것 같은데, prd 와 trd 가 제대로 되어 있지 않은데 그걸 구체화한 태스크들이 제대로 생성될리가 없으니... 아쉽더라고요
다만 많이 신경쓰지 않고, 아이디어와 목적 정도만 입력하고 구체화를 할 수 있도록 질문은 잘 뽑았다고 생각하니
vooster의 prd, trd 생성을 위한 질문을 배껴서, 내용을 작성한 뒤 고급모델(gemini 2.5 pro 등)에게 prd, trd를 작성해 달라고 하고, task-master를 이용해서 task로 breakdown해달라고 해 보세요!
아이고 대충 떠든데 상세한 답글 감사합니다.
무료란거는 괜찮지만 taskmaster 라는건 한 백만원 하려나요... 함 알아봐야겠네요
사실 저도 최근 task-master를 발견하고 내가 바퀴를 두번만든건가 검색좀 해보고 할걸 이라는 생각을 하다가 아직 task-master가 제가 필요하다고 생각하는 몇가지가 없는 것을 보고 안심(?) 했습니다. ㅎㅎ 저도 제가 만든 체계로 너무 먼길을 와서 task-master 를 쓰기는 어렵지만, 아무래도 오픈소스와 사용자 저변의 힘이라는게 무섭다 보니 이번 프로젝트 끝날 때 쯤 어디까지 개선되어 있나 보고 한번 써보려고요!
기획, 개발 어떤 경우든 사용자가 자기방식 지나치게 고집해서 AI의 상식 무시하고 고집하기 보다는 충분히 협의하면서,
사용자가 수용하거나 아니면 (AI가 확실하게 잘못하고 있을때는) AI를 충분히 이해시키고 설득해야
더 좋은 결과가 나오고 프로젝트 마무리까지 순조로운거 같습니다.