엔비디아의 NVFP4에 대해 알아봅니다. : 클리앙

왜냐면...

베라루빈을 설명할 때 가장 눈에 잘 띄는 부분에 적혀 있는...

성능을 대변하는 숫자의 의미를 알기 위해서입니다.

스크린샷 2026-01-08 181632.png

그림을 보면 무시무시한 숫자가 보일 겁니다.

50페타플롭스라는... 괴물 GPU라고 해도 과언은 아닌...

그 숫자 밑에.... 영문으로 쓰인 암호 같은 느낌의 단어가 보이실 겁니다.

NVFP4...이게 뭐지, FP4와 다른 점이 있다는 것일까... 이런 생각 혹시 들지 않나요.

엔비디아는 여러 기술과 제품에 NV를 붙여서 씁니다.

쉽게 말해 자사만의 독자 규격이거나 응용 기술이라는 것을 드러내기 위해 NV를 붙인다고 보면 되겠습니다.

FP4는 4비트로 E2M1으로 저장합니다.

그런데 양자화 관련해서 보신 분들은 아시겠지만 정확도 손실이 좀 있는 편입니다.

이러한 단점을 개선해 왔지만 근본적 한계는 있었다는 것입니다.

예를 들어 100B 짜리 모델이 있고, 이것을 양자화 할 때 FP8로 하면 정확도 손실이 거의 없습니다.

라마가 막 2, 3.... 이어서 공개하던 시절 이야깁니다.

모델 성능이 안 그래도 부족한데 정확도까지 떨어지면 소비자 만족도가 처참할 수 밖에 없으니,

하드웨어가 받쳐주지 못하는 사람들은 실험을 통해 적당한 타협 지점을 찾아내고, 그 자료를 공개 했었습니다.

그 결과 FP8은 정확도 손실이 없진 않으나 눈꼽만큼도 안되니,

하드웨어가 받쳐주면.. 이 선택이 맞고,

FP4은 모델의 용량도 줄지만 하드웨어 성능 부하가...크게 절감 되므로, 초 고 사양 아니면 FP4 버전을 추천했습니다.

이게 벌써 수년 전 이야기네요.

지금은 오픈 소스 유저들에게 보편적인 방식이 되고 있습니다.

암튼, 문제는 보이는 벤치에서는 덜하지만 체감하는 여러 실 사용 포인트에서

FP4는 여러가지 문제를 드러내게 됩니다.

그래서 레이어마다 다른 적용을 하는 방식도 제안 되기도 했지만,

엔비디아가 선택한 방식은...

FP4를 기반으로 하면서 확대와 축소가 가능한 스케일을 붙여 정확도를 지키게 하는 방식을 택합니다.

스케일에 맞게 잘라내 (E4M3)로 저장하고, 이걸 다시 텐서 전체에 한 번 더 FP32 스케일을 적용하고....

이를 다시 복원하는 방식을 통해 정확도를 지킨다는 것입니다. 하여간에 머리 잘 썼습니다.

영리하며 실용적인 방식입니다.

구글이 제미나이 3.0의 최 종 버전 학습을 TPU FP8로 학습한 것으로 본 것 같습니다.

예전 같으면 학습을 8비트로 한다고?... 라는 반응이 나왔을지도 모르겠습니다.

보다 더 정교한 이해와 작동을 위해선 예나 지금이나 무조건 .. 사양이 받쳐주고, 돈 걱정 없고,

경쟁사 대비.. 이런 소리가 없다면 무조건 더 큰 것이 좋습니다.

그럼에도 실용성이 경쟁의 핵심이 되다 보니,

실속형으로 기본을 바꾸고, 그 기본의 부족함을 메우는 방식을 고안하니... 이게 NVFP4의 정체입니다.

쉽게 말해 어지간한 서비스는 NVFP4로 충분합니다.

기존 대비 연산량이 큰 폭으로 줄어드는데, 연산 성능은 올라가니...

이전 세대와의 성능 격차를 키우고, 실제 현장에서의 활용도를 높이는 고민...

이 이러한 엔비디아의 독자 방식의 이유가 됩니다.

이번 CES 2026에서 엔비디아가 선 보인 발표의 의미는...

우리가 가성비 킹! 지금까지도 앞으로도 ... 실질 가성비 1위..는 우리꺼. 라는 의미에,

가성비에 이어 성능까지 1등을 지키고 고객을 만족시키겠다는 뜻을 보이고 있었습니다.

모두의공원