Google trình làng mô hình ngôn ngữ nhỏ gọn Gemma 2 2B vượt trội hơn GPT 3.5 Turbo

Google trình bày Gemma 2 2B là mô hình ngôn ngữ trí tuệ nhân tạo (LLM) nhỏ gọn nhưng mạnh mẽ, có thể cạnh tranh với các công ty dẫn đầu ngành mặc dù quy mô nhỏ hơn đáng kể. Chỉ với 2,6 tỷ tham số, mô hình ngôn ngữ mới mang lại hiệu suất ngang bằng với các ngôn ngữ lớn hơn nhiều, bao gồm OpenAI GPT-3.5 và Mistral AI Mixtral 8x7B.

Google trình làng mô hình ngôn ngữ nhỏ gọn Gemma 2 2B vượt trội hơn GPT 3.5 Turbo

Trong bài kiểm tra LMSYS Chatbot Arena, một nền tảng trực tuyến phổ biến dùng để benchmark và đánh giá chất lượng của các mô hình trí tuệ nhân tạo, Gemma 2 2B đạt được 1130 điểm. Kết quả này nhỉnh hơn một chút so với kết quả của GPT-3.5-Turbo-0613 (1117 điểm) và Mixtral-8x7B (1114 điểm) - những mẫu có thông số gấp XNUMX lần.

Google trình làng mô hình ngôn ngữ nhỏ gọn Gemma 2 2B vượt trội hơn GPT 3.5 Turbo

Google cho biết Gemma 2 2B cũng đạt 56,1 điểm trong bài kiểm tra MMLU (Hiểu ngôn ngữ đa nhiệm lớn) và 36,6 trong bài kiểm tra MBPP (Lập trình Python cơ bản nhất), đây là một cải tiến đáng kể so với phiên bản trước.

Gemma 2 2B thách thức quan niệm thông thường rằng các mô hình ngôn ngữ lớn hơn vốn đã hoạt động tốt hơn các mô hình ngôn ngữ nhỏ hơn. Hiệu suất của Gemma 2 2B cho thấy các phương pháp đào tạo phức tạp, hiệu quả kiến ​​trúc và bộ dữ liệu chất lượng cao có thể bù đắp cho việc thiếu tham số. Sự phát triển của Gemma 2 2B cũng nhấn mạnh tầm quan trọng ngày càng tăng của kỹ thuật nén và chưng cất mô hình AI. Khả năng tổng hợp thông tin một cách hiệu quả từ các mô hình lớn hơn thành các mô hình nhỏ hơn sẽ mở ra cơ hội cho các công cụ AI giá cả phải chăng hơn mà không làm giảm hiệu suất.

Google đã đào tạo Gemma 2 2B về tập dữ liệu khổng lồ gồm 2 nghìn tỷ mã thông báo sử dụng các hệ thống được hỗ trợ bởi bộ tăng tốc AI TPU v5e độc ​​quyền của Google. Hỗ trợ nhiều ngôn ngữ giúp mở rộng tiềm năng sử dụng của nó trong các ứng dụng toàn cầu. Mô hình Gemma 2 2B là nguồn mở. Các nhà nghiên cứu và phát triển có thể truy cập mô hình thông qua nền tảng Ôm mặt. Nó cũng hỗ trợ các khuôn khổ khác nhau bao gồm Kim tự tháp и TensorFlow.

Nguồn:


Nguồn: 3dnews.ru
Mua dịch vụ lưu trữ đáng tin cậy cho các trang web có bảo vệ DDoS, máy chủ VPS VDS 🔥 Mua dịch vụ hosting website đáng tin cậy với bảo vệ DDoS, máy chủ VPS VDS | ProHoster