O Google lançou uma nova família de modelos de linguagem em larga escala, o Gemma 4, baseado no modelo Gemini 3. O Gemma 4 é distribuído sob a licença Apache em variantes com 2.3, 4.5, 25.2 e 30.7 bilhões de parâmetros (E2B, E4B, 31B e 26B A4B). As variantes E2B e E4B são adequadas para uso em dispositivos móveis, sistemas de Internet das Coisas (IoT) e placas do tipo Raspberry Pi, enquanto as demais variantes são adequadas para uso em estações de trabalho e sistemas com GPUs de consumo. O tamanho do contexto considerado pelo modelo é de 128 tokens para os modelos E2B e E4B, e de 256 tokens para os modelos 31B e 26B A4B.
Os modelos são multilíngues e multimodais: 35 idiomas são suportados nativamente (mais de 140 idiomas foram usados durante o treinamento), e texto e imagens podem ser processados como entrada (os modelos E2B e E4B também suportam processamento de áudio). O modelo 26B A4B é baseado na arquitetura Mixture-of-Experts (MoE), na qual o modelo é dividido em uma série de redes de especialistas (a geração de respostas pode usar apenas 3.8 bilhões de parâmetros, mas a velocidade é significativamente maior do que a de grandes modelos clássicos), enquanto as outras variantes usam uma arquitetura monolítica clássica.
Os modelos suportam raciocínio e modos de deliberação personalizáveis, além de uma função de sistema para processar instruções (regras, restrições) separadamente dos dados. Podem ser usados para escrever código, reconhecer objetos em imagens, realizar análise de vídeo quadro a quadro, analisar documentos e PDFs, realizar reconhecimento óptico de caracteres (OCR) em textos impressos e manuscritos, reconhecimento de fala e tradução entre idiomas. Também podem ser usados como agentes autônomos que interagem com diversas ferramentas e APIs.
Na maioria dos testes, os modelos Gemma 4 superaram significativamente o modelo Gemma 3, que possui 27 bilhões de parâmetros. O Gemma 4 é compatível com LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM e NeMo, LM Studio, Unsloth, SGLang, Cactus, Basetan, MaxText, Tunix e Keras.


Fonte: opennet.ru
