Google har publisert en ny familie av storskala språkmodeller, Gemma 4, basert på Gemini 3-modellen. Gemma 4 distribueres under Apache-lisensen i varianter med 2.3, 4.5, 25.2 og 30.7 milliarder parametere (E2B, E4B, 31B og 26B A4B). E2B- og E4B-variantene er egnet for bruk på mobile enheter, tingenes internett (IoT)-systemer og Raspberry Pi-lignende kort, mens de andre variantene er egnet for bruk på arbeidsstasjoner og systemer med forbruker-GPU-er. Kontekststørrelsen som vurderes av modellen er 128 000 tokens for E2B- og E4B-modellene, og 256 000 tokens for 31B- og 26B A4B-modellene.
Modellene er flerspråklige og multimodale: 35 språk støttes ut av boksen (over 140 språk ble brukt under trening), og tekst og bilder kan behandles som input (E2B- og E4B-modellene støtter i tillegg lydbehandling). 26B A4B-modellen er basert på Mixture-of-Experts (MoE)-arkitekturen, der modellen er delt inn i en serie ekspertnettverk (responsgenerering kan bare bruke 3.8 milliarder parametere, men hastigheten er betydelig høyere enn for klassiske store modeller), mens de andre variantene bruker en klassisk monolittisk arkitektur.
Modellene støtter resonnement og tilpassbare overveielsesmoduser, og støtter en systemrolle for behandling av instruksjoner (regler, begrensninger) separat fra data. Modellene kan brukes til å skrive kode, gjenkjenne objekter i bilder, analyse av video bilde for bilde, analysere dokumenter og PDF-er, optisk tegngjenkjenning (OCR) av trykt og håndskrevet tekst, talegjenkjenning og oversettelse mellom språk. De kan også brukes som autonome agenter som samhandler med ulike verktøy og API-er.
I de fleste tester overgikk Gemma 4-modellene Gemma 3-modellen med 27 milliarder parametere betydelig. Gemma 4 støtter LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM og NeMo, LM Studio, Unsloth, SGLang, Cactus, Basetan, MaxText, Tunix og Keras.


Kilde: opennet.ru
