Databricks katta DBRX til modelini ochadi GPT-3.5 mezonlaridan ustun turadi

Databricks tabiiy tilda savollarga javob beradigan, taklif qilingan matematik muammolarni yechadigan, berilgan mavzu bo‘yicha kontent yarata oladigan va turli dasturlash tillarida kod ishlab chiqaradigan chatbotlarni yaratish uchun ishlatilishi mumkin bo‘lgan DBRX katta til modeli kashf etilganini e’lon qildi. Model Mosaic ML tomonidan ishlab chiqilgan bo'lib, uni Databricks 1.3 milliard dollarga sotib olgan. Trening uchun 3072 NVIDIA H100 Tensor Core GPU klasteridan foydalanilgan. Tayyor modelni ishga tushirish uchun 320 Gb xotira tavsiya etiladi.

Modelni o'qitishda aniqroq ekspert bahosini va 12 Tb o'lchamdagi matnlar va kodlar to'plamini olish imkonini beruvchi MN (Mutaxassislar aralashmasi) arxitekturasidan foydalanilgan. DBRX modeli tomonidan hisobga olingan kontekstning hajmi 32 ming tokenni tashkil etadi (model matnni yaratishda qayta ishlay oladigan va eslab qolishi mumkin bo'lgan tokenlar soni). Taqqoslash uchun, Google Gemini va OpenAI GPT-4 modellarining kontekst hajmi 32 ming token, Google Gemma 8 ming, GPT-4 Turbo modeli esa 128 ming.

Model 132 milliard parametrni qamrab oladi va 16 ta ekspert tarmog‘iga bo‘lingan bo‘lib, ulardan 4 tadan ko‘p bo‘lmagan so‘rovni qayta ishlashda foydalanish mumkin (har bir token uchun 36 milliarddan ko‘p bo‘lmagan parametrlarni qamrab oladi). Taqqoslash uchun, GPT-4 modeli go'yoki 1.76 trillion parametrlarni o'z ichiga oladi, yaqinda ochilgan X/Twitter modeli Grok (X/Twitter) - 314 milliard, GPT-3.5 - 175 milliard, YaLM (Yandex) - 100 milliard, LLaMA (Meta) - 65 milliard , GigaChat (Sber) - 29 milliard, Gemma (Google) - 7 milliard.

Model va tegishli komponentlar Databricks Open Model Litsenziyasi ostida litsenziyalangan boʻlib, u foydalanish, koʻpaytirish, nusxa koʻchirish, oʻzgartirish va hosilaviy ishlarga ruxsat beradi, lekin maʼlum cheklovlar bilan. Masalan, litsenziya DBRX, uning hosilaviy modellari va DBRXdan boshqa til modellarini yaxshilash uchun ularga asoslangan har qanday chiqishdan foydalanishni taqiqlaydi. Litsenziya shuningdek, qonun va qoidalarni buzadigan sohalarda modeldan foydalanishni taqiqlaydi. Hosil modellar bir xil litsenziya ostida tarqatilishi kerak. Oyiga 700 milliondan ortiq foydalanuvchi foydalanadigan mahsulot va xizmatlarda foydalanilganda alohida ruxsatnoma talab qilinadi.

Modelni yaratuvchilarning fikriga ko'ra, DBRX o'zining xususiyatlari va imkoniyatlari bo'yicha OpenAI-ning GPT-3.5 va Twitter-ning Grok-1 modelidan ustundir va tilni tushunish darajasini sinovdan o'tkazishda Gemini 1.0 Pro modeli bilan raqobatlasha oladi. dasturlash tillarida kod yozish va matematik muammolarni hal qilish qobiliyati. Ba'zi ilovalarda, masalan, SQL so'rovlarini yaratishda, DBRX bozorda etakchi GPT-4 Turbo ishlashiga yaqinlashadi. Bundan tashqari, model raqobatdosh xizmatlardan juda tez ishlashi bilan ajralib turadi va deyarli bir zumda javob yaratish imkonini beradi. Xususan, DBRX har bir foydalanuvchi uchun soniyasiga 150 ta tokengacha matn yaratishi mumkin, bu LLaMA2-70B modelidan taxminan ikki baravar tezdir.

Databricks katta DBRX til modelini ochadi GPT-3.5 mezonlaridan ustun turadi
Databricks katta DBRX til modelini ochadi GPT-3.5 mezonlaridan ustun turadi

Bundan tashqari, Apache 2 litsenziyasi ostida tarqatilgan va 2.0, 20 va 7 milliard parametrli versiyalarda mavjud bo'lgan InternLM1.8 ochiq katta til modelining texnik tavsifi nashr etilganini qayd etishimiz mumkin. Model Shanxay sun'iy intellekt laboratoriyasi tomonidan Xitoyning bir nechta universitetlari ishtirokida ishlab chiqilmoqda va 200K kontekstli tokenlarni hisobga olishi va nafaqat ingliz tilini, balki xitoy tilini ham qo'llab-quvvatlashi bilan ajralib turadi. Ko'pgina testlarda model GPT-4 ga yaqin.

Databricks katta DBRX til modelini ochadi GPT-3.5 mezonlaridan ustun turadi
Databricks katta DBRX til modelini ochadi GPT-3.5 mezonlaridan ustun turadi
Databricks katta DBRX til modelini ochadi GPT-3.5 mezonlaridan ustun turadi

Bundan tashqari, Mozilla’ning llamafayl asboblar to‘plami uchun 84 ta yangi matritsalarni ko‘paytirish yadrolari ishlab chiqilayotgani ma’lum bo‘lib, bu mashinani o‘rganish bo‘yicha katta modellarni (LLM) ishga tushirish uchun universal bajariladigan dasturlarni yaratish imkonini beradi. O'zgarishlar protsessorda bajarilganda lamafiledagi modellarning ishlashini sezilarli darajada tezlashtirishga imkon berdi. Misol uchun, llamafayldan foydalanganda modelning bajarilishi atrof-muhitga qarab llama.cpp dan 30% dan 500% gacha foydalanishga qaraganda tezroq va MKL kutubxonasi bilan taqqoslaganda, L2 keshiga mos keladigan matritsa operatsiyalari ikki baravar tez bajariladi. yangi amalga oshirish.

Manba: opennet.ru

DDoS himoyasi, VPS VDS serverlari bo'lgan saytlar uchun ishonchli hosting sotib oling 🔥 DDoS himoyasi, VPS VDS serverlari bilan ishonchli veb-sayt xostingini sotib oling | ProHoster