„JetBrains“ atidaro „Mellum2“ – MoE modelį, skirtą greito dirbtinio intelekto scenarijams, kuriamiems.









„JetBrains“ atidarė modelį Mellum2, skirtas naudoti dirbtinio intelekto įrankiuose programinės įrangos kūrimui. Modelis publikuojamas pagal licenciją Apache 2.0Svoriai pateikiami „Hugging Face“. „JetBrains“ pabrėžia, kad „Mellum2“ buvo apmokytas nuo nulio ir yra skirtas ne multimodalinėms užduotims, o darbui su tekstu ir kodu: užklausų maršrutizavimui, RAG srautams, santraukoms, pagalbiniams agentams ir privačiam diegimui įmonės infrastruktūroje.

„Mellum2“ sukurta remiantis architektūra Ekspertų mišinysBendras dydis 12 milijardo parametrų Vienam žetonui aktyvuojama tik apie 1000 2.5 milijardo parametrų, o tai turėtų sumažinti skaičiavimo sąnaudas ir vėlavimą išvadų darymo metu. Pasak „JetBrains“, modelio našumas etaloniniu testu yra panašus į panašaus dydžio atvirojo kodo modelius, tačiau išvadų darymo greitis yra daugiau nei dvigubai didesnis.

„JetBrains“ apibūdina „Mellum2“ kaip originalaus „Mellum“ modelio, kuris iš pradžių buvo sukurtas kodo užbaigimui, evoliuciją. Naujoji versija išplečiama į platesnę užduočių klasę, kuriai reikia dirbti tiek su programos kodu, tiek su natūralia kalba. Bendrovė „Mellum2“ pozicionuoja kaip „sutelktą“ modelį – ne kaip didelių, bendrosios paskirties teisės vadybos sistemų pakaitalą, o kaip greitą, specializuotą komponentą, skirtą dažnoms tarpinėms operacijoms sudėtingose ​​dirbtinio intelekto sistemose.

Tarp siūlomų naudojimo atvejų yra yra vadinami Užklausų klasifikavimas ir nukreipimas tarp modelių ir įrankių, konteksto glaudinimas ir apdorojimas RAG sistemose, duomenų paruošimas agentams, planavimas, tarpinių rezultatų patvirtinimas ir vietinis vykdymas aplinkose, kuriose neįmanoma siųsti šaltinio kodo ar vidinių duomenų į išorines API sąsajas.

Apkabinančio veido paskelbta kolekcija Mellum 2, kuris apima kelis modelio variantus: „Thinking“, „Instruct“, „Thinking-SFT“, „Instruct-SFT“, „Base“ ir „Base-Pretrain“. Modeliai platinami „Safetensors“ formatu pagal „Apache 2.0“ licenciją.
Pateikiami paleidimui skirti naudojimo pavyzdžiai naudojant „Transformers“, vLLM, SGLang ir „Docker Model Runner“.

Techniškai įdomiau ne dar vieno atvirojo kodo modelio atsiradimas, o „JetBrains“ pasirinkta niša. Bendrovė nesikoncentruoja į konkurenciją su didžiausiais bendrosios paskirties modeliais, o į nebrangius ir greitus komponentus, kuriuos galima tiesiogiai integruoti į IDE, vidinius asistentus, įmonių RAG sistemas ir agentų srautus. Programuotojams ir įmonėms tai reiškia galimybę paleisti tam tikrą dirbtinio intelekto logiką vietoje arba savo serveriuose, išlaikant kodo, duomenų ir išvadų sąnaudų kontrolę.

Šaltinis: linux.org.ru

Pirkite patikimą prieglobą svetainėms su DDoS apsauga, VPS VDS serveriais 🔥 Įsigykite patikimą svetainių talpinimą su DDoS apsauga, VPS VDS serveriais | ProHoster