أصدرت جوجل مجموعة جديدة من نماذج اللغة واسعة النطاق، Gemma 4، والمبنية على نموذج Gemini 3. يُوزّع Gemma 4 بموجب ترخيص Apache، ويتوفر بإصدارات مختلفة تحتوي على 2.3، و4.5، و25.2، و30.7 مليار مُعامل (E2B، وE4B، و31B، و26B A4B على التوالي). يُناسب الإصداران E2B وE4B الاستخدام على الأجهزة المحمولة، وأنظمة إنترنت الأشياء (IoT)، واللوحات المشابهة لـ Raspberry Pi، بينما تُناسب الإصدارات الأخرى محطات العمل والأنظمة المزودة بوحدات معالجة رسومية (GPU) للاستخدام المنزلي. يبلغ حجم السياق الذي يعتمده النموذج 128 رمزًا مميزًا لنموذجي E2B وE4B، و256 رمزًا مميزًا لنموذجي 31B و26B A4B.
تتميز النماذج بتعدد اللغات والوسائط: فهي تدعم 35 لغة بشكل افتراضي (استُخدم أكثر من 140 لغة أثناء التدريب)، ويمكن معالجة النصوص والصور كمدخلات (يدعم نموذجا E2B وE4B معالجة الصوت أيضًا). يعتمد نموذج 26B A4B على بنية مزيج الخبراء (MoE)، حيث يُقسّم النموذج إلى سلسلة من شبكات الخبراء (يستخدم توليد الاستجابات 3.8 مليار مُعامل فقط، لكن سرعته أعلى بكثير من سرعة النماذج الكبيرة التقليدية)، بينما تستخدم المتغيرات الأخرى بنية متجانسة تقليدية.
تدعم هذه النماذج أنماط الاستدلال والتفكير القابلة للتخصيص، كما تدعم دورًا نظاميًا لمعالجة التعليمات (القواعد والقيود) بشكل منفصل عن البيانات. ويمكن استخدامها لكتابة التعليمات البرمجية، والتعرف على الكائنات في الصور، وتحليل الفيديو إطارًا بإطار، وتحليل المستندات وملفات PDF، والتعرف الضوئي على الأحرف (OCR) للنصوص المطبوعة والمكتوبة بخط اليد، والتعرف على الكلام، والترجمة بين اللغات. كما يمكن استخدامها كوكلاء مستقلين يتفاعلون مع أدوات وواجهات برمجة تطبيقات متنوعة.
في معظم الاختبارات، تفوقت نماذج Gemma 4 بشكل ملحوظ على نموذج Gemma 3 الذي يحتوي على 27 مليار مُعامل. يدعم Gemma 4 كلاً من LiteRT-LM وvLLM وllama.cpp وMLX وOllama وNVIDIA NIM وNeMo وLM Studio وUnsloth وSGLang وCactus وBasetan وMaxText وTunix وKeras.


المصدر: opennet.ru
