Η Google δημοσίευσε μια νέα οικογένεια μοντέλων γλώσσας μεγάλης κλίμακας, την Gemma 4, η οποία βασίζεται στο μοντέλο Gemini 3. Η Gemma 4 διανέμεται υπό την Άδεια Apache σε παραλλαγές με 2.3, 4.5, 25.2 και 30.7 δισεκατομμύρια παραμέτρους (E2B, E4B, 31B και 26B A4B). Οι παραλλαγές E2B και E4B είναι κατάλληλες για χρήση σε κινητές συσκευές, συστήματα Internet of Things (IoT) και μητρικές πλακέτες τύπου Raspberry Pi, ενώ οι άλλες παραλλαγές είναι κατάλληλες για χρήση σε σταθμούς εργασίας και συστήματα με καταναλωτικές GPU. Το μέγεθος περιβάλλοντος που λαμβάνεται υπόψη από το μοντέλο είναι 128 tokens για τα μοντέλα E2B και E4B και 256 tokens για τα μοντέλα 31B και 26B A4B.
Τα μοντέλα είναι πολύγλωσσα και πολυτροπικά: υποστηρίζονται 35 γλώσσες αμέσως μόλις ολοκληρωθεί η εγκατάσταση (χρησιμοποιήθηκαν πάνω από 140 γλώσσες κατά την εκπαίδευση) και κείμενο και εικόνες μπορούν να υποστούν επεξεργασία ως είσοδος (τα μοντέλα E2B και E4B υποστηρίζουν επιπλέον επεξεργασία ήχου). Το μοντέλο 26B A4B βασίζεται στην αρχιτεκτονική Mixture-of-Experts (MoE), στην οποία το μοντέλο χωρίζεται σε μια σειρά από δίκτυα εμπειρογνωμόνων (η παραγωγή απόκρισης μπορεί να χρησιμοποιήσει μόνο 3.8 δισεκατομμύρια παραμέτρους, αλλά η ταχύτητα είναι σημαντικά υψηλότερη από αυτή των κλασικών μεγάλων μοντέλων), ενώ οι άλλες παραλλαγές χρησιμοποιούν μια κλασική μονολιθική αρχιτεκτονική.
Τα μοντέλα υποστηρίζουν συλλογισμό και προσαρμόσιμες λειτουργίες διαβούλευσης, και υποστηρίζουν έναν Ρόλο Συστήματος για την επεξεργασία οδηγιών (κανόνες, περιορισμοί) ξεχωριστά από τα δεδομένα. Τα μοντέλα μπορούν να χρησιμοποιηθούν για τη σύνταξη κώδικα, την αναγνώριση αντικειμένων σε εικόνες, την ανάλυση βίντεο καρέ-καρέ, την ανάλυση εγγράφων και PDF, την οπτική αναγνώριση χαρακτήρων (OCR) έντυπου και χειρόγραφου κειμένου, την αναγνώριση ομιλίας και τη μετάφραση μεταξύ γλωσσών. Μπορούν επίσης να χρησιμοποιηθούν ως αυτόνομοι πράκτορες που αλληλεπιδρούν με διάφορα εργαλεία και API.
Στις περισσότερες δοκιμές, τα μοντέλα Gemma 4 ξεπέρασαν σημαντικά την απόδοση του μοντέλου Gemma 3 των 27 δισεκατομμυρίων παραμέτρων. Το Gemma 4 υποστηρίζει τα LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM και NeMo, LM Studio, Unsloth, SGLang, Cactus, Basetan, MaxText, Tunix και Keras.


Πηγή: opennet.ru
