저는 vscode 에서 cline 을 메인으로 사용하고 있습니다.
추론모드 사용하면 API 오류 메세지가 자주 발생 해서 THINK 모드를 끄고 사용했지만, 코드 작성 차이를 느끼고
다시 추론모드를 사용하기 위해 여러 템플릿 jinja 를 사용해봤는데..
이미 해결책이 vLLM 에 들어있었네요.
yaml 파일에서
mods: - mods/fix-qwen3.5-chat-template
추가 하고.. command 에 아래 한줄 을 추가 하면 해결됩니다.
--chat-template unsloth.jinja
저는 아래 모델을 사용하고 있습니다.
RedHatAI-Qwen3.5-122B-A10B-NVFP4 와 INTEL Qwen3.5-122B-A10B-int4-AutoRound 를 쓰고 있습니다.
NVFP4 는 지능 및 언어적인 부분이 int4-AutoRound 보다 좋은데 속도가 아직 최적화를 못했고.. (15정도 나옴)
int4-AutoRound 는 45 정도 나와서 계속 연구 하고 있습니다.