Gemma 4 MTP 은폐후 커뮤니티가 파헤치고, Google이 뒤늦게 우회 지원 | GeekNews https://share.google/D2V9EoA5joW6iOTMa
Update on Gemma 4 having MTP: Reverse engineering effort : r/LocalLLaMA https://share.google/WwFBbuczDIzKliFQV
... Google이 MTP로 학습시킨 Gemma 4에서 해당 기능을 공개 배포판에서 제거했다가, 커뮤니티의 리버스 엔지니어링으로 들통난 후 외부 보조 모델 형태로 뒤늦게 지원을 시작했다.
오픈소스 개발자들이 Google이 배포한 모바일/엣지 디바이스용 포맷인 .litertlm(TFLite 기반) 파일을 분석하던 중 충격적인 사실을 발견했다. HuggingFace에 공개된 표준 모델 가중치에는 존재하지 않는 MTP(Multi-Token Prediction, 다중 토큰 예측) 아키텍처가 엣지용 컴파일 파일에만 포함되어 있었던 것이다.
이를 공개적으로 문제 제기하자, Google 측은 사실을 시인하며 이렇게 답했다:
"MTP 관련 예측 헤드는 HuggingFace Transformers API와의 호환성을 위해 공개 모델에서 의도적으로 제외했다. LiteRT 런타임에는 온디바이스 성능 향상을 위해 보존했다."
MTP란 무엇인가
일반 LLM은 토큰을 하나씩 순차적으로 생성한다. MTP는 한 번의 forward pass에서 여러 토큰을 동시에 예측하는 기법으로, 투기적 디코딩(Speculative Decoding)과 결합하면 출력 품질 변화 없이 추론 속도를 크게 높일 수 있다. 이론적으로 손실이 없는(lossless) 최적화다.
...
그냥 재미로만 보셔요
뭐 사실이라면 재밌고...
어쨋던 공개 되었으니 GEMMA 4 의 로컬 작동 고속화 기대해 봅니다 ^^