Google ได้เผยแพร่โมเดลภาษาขนาดใหญ่ตระกูลใหม่ Gemma 4 ซึ่งพัฒนามาจากโมเดล Gemini 3 Gemma 4 เผยแพร่ภายใต้ Apache License ในเวอร์ชันที่มีพารามิเตอร์ 2.3, 4.5, 25.2 และ 30.7 พันล้านตัว (E2B, E4B, 31B และ 26B A4B) เวอร์ชัน E2B และ E4B เหมาะสำหรับใช้งานบนอุปกรณ์พกพา ระบบ Internet of Things (IoT) และบอร์ดอย่าง Raspberry Pi ในขณะที่เวอร์ชันอื่นๆ เหมาะสำหรับใช้งานบนเวิร์กสเตชันและระบบที่มี GPU สำหรับผู้บริโภค ขนาดบริบทที่โมเดลพิจารณาคือ 128 โทเค็นสำหรับโมเดล E2B และ E4B และ 256 โทเค็นสำหรับโมเดล 31B และ 26B A4B
โมเดลเหล่านี้รองรับหลายภาษาและหลายรูปแบบ: รองรับ 35 ภาษาได้ทันที (ใช้มากกว่า 140 ภาษาในระหว่างการฝึกอบรม) และสามารถประมวลผลข้อความและรูปภาพเป็นอินพุตได้ (โมเดล E2B และ E4B ยังรองรับการประมวลผลเสียงเพิ่มเติมด้วย) โมเดล 26B A4B ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) ซึ่งแบ่งโมเดลออกเป็นเครือข่ายผู้เชี่ยวชาญหลายเครือข่าย (การสร้างการตอบสนองสามารถใช้พารามิเตอร์ได้เพียง 3.8 พันล้านตัว แต่ความเร็วสูงกว่าโมเดลขนาดใหญ่แบบคลาสสิกอย่างมาก) ในขณะที่รุ่นอื่นๆ ใช้สถาปัตยกรรมแบบโมโนลิธิกแบบคลาสสิก
โมเดลเหล่านี้รองรับโหมดการให้เหตุผลและการพิจารณาที่ปรับแต่งได้ และรองรับบทบาทของระบบในการประมวลผลคำสั่ง (กฎ ข้อจำกัด) แยกต่างหากจากข้อมูล โมเดลเหล่านี้สามารถใช้สำหรับการเขียนโค้ด การจดจำวัตถุในภาพ การวิเคราะห์วิดีโอแบบเฟรมต่อเฟรม การแยกวิเคราะห์เอกสารและไฟล์ PDF การรู้จำอักษรด้วยแสง (OCR) ของข้อความที่พิมพ์และเขียนด้วยมือ การรู้จำเสียงพูด และการแปลระหว่างภาษา นอกจากนี้ยังสามารถใช้เป็นเอเจนต์อิสระที่โต้ตอบกับเครื่องมือและ API ต่างๆ ได้อีกด้วย
ในการทดสอบส่วนใหญ่ โมเดล Gemma 4 มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 ที่มีพารามิเตอร์ถึง 27 พันล้านตัวอย่างเห็นได้ชัด Gemma 4 รองรับ LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM และ NeMo, LM Studio, Unsloth, SGLang, Cactus, Basetan, MaxText, Tunix และ Keras


ที่มา: opennet.ru
