
스파크 호환 제품으로 매일 연구하면서 지금은 거의 vLLM으로 정착해 가고 있습니다.
처음에는 llama.cpp 편했는데.. 지금은 성능에 목마름으로 vLLM 으로 정착했습니다. ㅎㅎ
이번에 출시한 Qwen 3.6 35b 모델이 생각보다 좋아서 로컬 LLM 고민하시는 분께 추천드려요.
콘솔에서 명령어만 붙여 넣으시면 거의 자동으로 됩니다.
1. 모델을 다운받습니다.
저는 모델을 한 폴더에 저장해 놓고 사용하고 있습니다. (외장하드 마운트)
~/models/Qwen3.6-35B-A3B-FP8 에 허깅스페이스에서 다운 받습니다.
mkdir -p ~/models cd ~/models hf download Qwen/Qwen3.6-35B-A3B-FP8 \ --local-dir Qwen3.6-35B-A3B-FP8 \ --resume-download
2. DGX Spark eugr vLLM 을 다운/설치합니다.
git clone https://github.com/eugr/spark-vllm-docker.git cd spark-vllm-docker ./build-and-copy.sh --tf5
3.모델 프로필을 만듭니다.
cd ~/spark-vllm-docker/recipes nano qwen3.5-35b-a3b-fp8.yaml
(에디터가 열립니다)
아래 내용을 복사후 붙여넣기, 컨트롤+s, 컨트롤+x 하면 끝
recipe_version: "1"
name: Qwen36-35B-A3B-FP8
description: vLLM serving local Qwen3.6-35B-A3B-FP8
solo_only: true
container: vllm-node-tf5
mods: []
defaults:
port: 8100
host: 0.0.0.0
gpu_memory_utilization: 0.6
max_model_len: 262144
max_num_batched_tokens: 32768
env:
VLLM_MARLIN_USE_ATOMIC_ADD: 1
command: |
vllm serve /models/Qwen3.6-35B-A3B-FP8 \
--served-model-name qwen \
--host {host} \
--port {port} \
--max-model-len {max_model_len} \
--max-num-batched-tokens {max_num_batched_tokens} \
--gpu-memory-utilization {gpu_memory_utilization} \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--default-chat-template-kwargs '{{"preserve_thinking": true}}' \
--load-format fastsafetensors \
--override-generation-config '{{"temperature": 0.6, "top_p": 0.95, "top_k": 20, "presence_penalty": 0.1, "repetition_penalty": 1.05}}' \
--speculative-config '{{"method":"mtp","num_speculative_tokens":3}}' \
--attention-backend flashinfer \
--enable-prefix-caching \
--enable-chunked-prefill
4. 가상 환경을 만듭니다. (sh파일로 만들면 편함)
#!/usr/bin/env bash tmux has-session -t vllm 2>/dev/null if [ $? -eq 0 ]; then tmux attach -t vllm else tmux new -s vllm fi
5. 실행합니다. (sh 파일로 만들면 편함)
#!/usr/bin/env bash cd ~/spark-vllm-docker || exit 1 ./run-recipe.sh qwen3.6-35b-a3b-fp8 \ --solo \ --setup \ -t vllm-node-tf5
사용하는 vscode 나 커서,오픈코드에 모델 입력해서 사용 하면 됩니다.
저두 간단한게 좋아서, 최대한 편하게 설치하는 방법으로 글을 써 보았습니다.
피드백은 언제나 감사합니다. ^^