Google heeft een nieuwe reeks grootschalige taalmodellen uitgebracht, Gemma 4, gebaseerd op het Gemini 3-model. Gemma 4 wordt gedistribueerd onder de Apache-licentie in varianten met 2.3, 4.5, 25.2 en 30.7 miljard parameters (E2B, E4B, 31B en 26B A4B). De E2B- en E4B-varianten zijn geschikt voor gebruik op mobiele apparaten, IoT-systemen (Internet of Things) en Raspberry Pi-achtige boards, terwijl de andere varianten geschikt zijn voor gebruik op werkstations en systemen met consumenten-GPU's. De contextgrootte die door het model wordt overwogen, is 128 tokens voor de E2B- en E4B-modellen en 256 tokens voor de 31B- en 26B A4B-modellen.
De modellen zijn meertalig en multimodaal: 35 talen worden standaard ondersteund (meer dan 140 talen werden gebruikt tijdens de training), en tekst en afbeeldingen kunnen als invoer worden verwerkt (de E2B- en E4B-modellen ondersteunen bovendien audioverwerking). Het 26B A4B-model is gebaseerd op de Mixture-of-Experts (MoE)-architectuur, waarbij het model is opgedeeld in een reeks expertnetwerken (voor het genereren van responsen kunnen slechts 3.8 miljard parameters worden gebruikt, maar de snelheid is aanzienlijk hoger dan die van klassieke, grote modellen), terwijl de andere varianten een klassieke monolithische architectuur gebruiken.
De modellen ondersteunen redeneer- en aanpasbare beraadslagingsmodi en een systeemrol voor het verwerken van instructies (regels, beperkingen) los van de data. De modellen kunnen worden gebruikt voor het schrijven van code, het herkennen van objecten in afbeeldingen, frame-voor-frame videoanalyse, het parseren van documenten en pdf's, optische tekenherkenning (OCR) van gedrukte en handgeschreven tekst, spraakherkenning en vertaling tussen talen. Ze kunnen ook worden gebruikt als autonome agenten die interageren met diverse tools en API's.
In de meeste tests presteerden Gemma 4-modellen aanzienlijk beter dan het Gemma 3-model met 27 miljard parameters. Gemma 4 ondersteunt LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM en NeMo, LM Studio, Unsloth, SGLang, Cactus, Basetan, MaxText, Tunix en Keras.


Bron: opennet.ru
