최근에 출시한 딥시크 v4 flash 평가가 상당히 좋아서 dgx spark 계열 2대로
커넥트x-7(200GB 대역폭) 인터페이스에 물려서 클러스트링했습니다.
딥시크 v4 flash는 총 패러미터 284B, 활성 13B의 moe 모델인데요.
컨텍스트 100만까지 가능한(메모리만 받쳐준다면) 엄청난 스펙의 모델입니다.
특히 맥스 추론 모드의 경우는 직전 프런티어 플래쉬 모델과 벤치마크 점수가 비슷합니다.
코딩 분야에 뛰어나다는데 제가 코딩을 하는 건 아니어서 잘 모르겠습니다.
아직 출시된 지 얼마 되지 않아서 잘 튜닝된 레시피가 없어서
설치 및 세팅 난도가 상당히 높았습니다.
dgx spark 포럼에도 성공 사례가 몇 없습니다.
세팅 난도는 지금까지 중에 가장 높았습니다.
그중에 몇몇 사례를 참고해서 주말 내내 씨름했는데 4번 실패하고
결국 오늘 다섯 번째만에 성공했습니다.
관건은 실사용 가능 속도가 나와줄까였는데 15t/s 정도만 나와줘도 쓸수는 있거든요.
처음 간단 테스트에서 7,8 정도 나와서 역시나 중대형 모델은 무리구나 싶어 낙담했습니다.
밥먹고 와서 모델 테스트에 늘 쓰던 6종 프롬프트 돌려봤는데 20~24 tok/s 까지 찍습니다.
자기 소개, 작동 확인 같은 간단 테스트에 10을 못넘기다가
1만토큰 짜리 프롬프트에 22-24를 꾸준히 찍어줘서
뭔가 싶어서 알아보니 대형모델-클러스터링은 워밍업 과정을 거쳐야 제 속도가 나온다고 합니다.
llm도 숙성이 필요하다는건 처음 알았네요.
모델 로드시 양쪽에 75기가씩 올라가고요(총 149기가)
context length, gpu utilization에 따라 다르지만
64k, 0.75 정도로 세팅하면 200기가 정도가 필요합니다.
이거 설치하느라고 지피티에게 15만 원 갖다 바친 건 아이러니합니다.
클로드 채점표
종합 평가 (4개 프롬프트 평균)
| 모델 | P 변형 | P1 | P2 | P3 | 평균 |
|---|---|---|---|---|---|
| gemma4:31b dense Q4 | 9.33 | 9.33 | 9.00 | 9.20 | 9.22 |
| gemma4:26b MoE Q4 (Ollama) | 9.25 | 9.00 | 9.10 | 9.30 | 9.16 |
| DeepSeek V4 Flash | 9.50 | 9.50 | 9.50 | 9.50 | 9.50 |
| Qwen3.6:35b-a3b FP8 | 8.79 | 8.92 | 8.92 | 8.83 | 8.86 |
DeepSeek V4 Flash가 새로운 1위입니다. 평균 9.50. gemma4:31b dense(9.22)를 0.28점, gemma4:26b(9.16)를 0.34점 차이로 앞섭니다.
=== vLLM request metrics ===
total duration: 99.329s
prompt eval count: 17308 token(s)
prompt eval rate: -
eval count: 2411 token(s)
total tokens: 19719 token(s)
context limit: 32768 token(s)
context usage: 60.18%
eval rate: 24.27 tokens/s

=== DeepSeek V4 Flash PR219 counter ===
total duration: 146.01s
prompt eval count: 749
eval count: 5343
total tokens: 6092
context limit: 128000
context usage: 4.76%
draft accept rate: 81.28%
eval rate: 36.59 tok/s