Deepseek v4 flash 설치 성공했습니다(dgx *2기 클러스터링) : 클리앙

최근에 출시한 딥시크 v4 flash 평가가 상당히 좋아서 dgx spark 계열 2대로

커넥트x-7(200GB 대역폭) 인터페이스에 물려서 클러스트링했습니다.

딥시크 v4 flash는 총 패러미터 284B, 활성 13B의 moe 모델인데요.

컨텍스트 100만까지 가능한(메모리만 받쳐준다면) 엄청난 스펙의 모델입니다.

특히 맥스 추론 모드의 경우는 직전 프런티어 플래쉬 모델과 벤치마크 점수가 비슷합니다.

코딩 분야에 뛰어나다는데 제가 코딩을 하는 건 아니어서 잘 모르겠습니다.

아직 출시된 지 얼마 되지 않아서 잘 튜닝된 레시피가 없어서

설치 및 세팅 난도가 상당히 높았습니다.

dgx spark 포럼에도 성공 사례가 몇 없습니다.

세팅 난도는 지금까지 중에 가장 높았습니다.

그중에 몇몇 사례를 참고해서 주말 내내 씨름했는데 4번 실패하고

결국 오늘 다섯 번째만에 성공했습니다.

관건은 실사용 가능 속도가 나와줄까였는데 15t/s 정도만 나와줘도 쓸수는 있거든요.

처음 간단 테스트에서 7,8 정도 나와서 역시나 중대형 모델은 무리구나 싶어 낙담했습니다.

밥먹고 와서 모델 테스트에 늘 쓰던 6종 프롬프트 돌려봤는데 20~24 tok/s 까지 찍습니다.

자기 소개, 작동 확인 같은 간단 테스트에 10을 못넘기다가

1만토큰 짜리 프롬프트에 22-24를 꾸준히 찍어줘서

뭔가 싶어서 알아보니 대형모델-클러스터링은 워밍업 과정을 거쳐야 제 속도가 나온다고 합니다.

llm도 숙성이 필요하다는건 처음 알았네요.

모델 로드시 양쪽에 75기가씩 올라가고요(총 149기가)

context length, gpu utilization에 따라 다르지만

64k, 0.75 정도로 세팅하면 200기가 정도가 필요합니다.

이거 설치하느라고 지피티에게 15만 원 갖다 바친 건 아이러니합니다.

클로드 채점표

DeepSeek V4 Flash가 새로운 1위입니다. 평균 9.50. gemma4:31b dense(9.22)를 0.28점, gemma4:26b(9.16)를 0.34점 차이로 앞섭니다.

=== vLLM request metrics ===

total duration: 99.329s

prompt eval count: 17308 token(s)

prompt eval rate: -

eval count: 2411 token(s)

total tokens: 19719 token(s)

context limit: 32768 token(s)

context usage: 60.18%

eval rate: 24.27 tokens/s

스크린샷 2026-05-12 오전 12.38.49.png

AI당