JetBrains әзірлеудегі жылдам жасанды интеллект сценарийлеріне арналған MoE моделі Mellum2-ні ашады









JetBrains моделін ашты Меллум2, бағдарламалық жасақтаманы әзірлеуге арналған жасанды интеллект құралдарын пайдалану үшін жасалған. Модель лицензия бойынша жарияланған. Apache 2.0Салмақтарды Hugging Face сайтынан алуға болады. JetBrains Mellum2 бағдарламасының нөлден бастап оқытылғанын және мультимодальды тапсырмалар үшін емес, мәтінмен және кодпен жұмыс істеу үшін жасалғанын атап өтеді: сұраныстарды бағыттау, RAG құбырлары, қорытындылау, көмекші агенттер және компания инфрақұрылымында жеке орналастыру.

Mellum2 архитектура негізінде жасалған Сарапшылар қоспасыЖалпы көлемімен 12 миллиард параметр Әр токенге шамамен 1000 ғана белсендіріледі 2.5 миллиард параметр, бұл есептеу шығындарын және қорытынды жасау кезіндегі кідірісті азайтуы керек. JetBrains мәліметтері бойынша, модельдің эталондық өнімділігі ұқсас өлшемдегі ашық бастапқы кодты модельдермен салыстыруға болады, бірақ қорытынды жасау жылдамдығын екі еседен астам арттырады.

JetBrains Mellum2-ні бастапқыда кодты аяқтау үшін жасалған түпнұсқа Mellum моделінің эволюциясы ретінде сипаттайды. Жаңа нұсқа бағдарлама коды мен табиғи тілмен жұмыс істеуді қажет ететін кеңірек тапсырмалар класына дейін кеңейеді. Компания Mellum2-ні «бағытталған» модель ретінде көрсетеді — бұл үлкен, жалпы мақсаттағы LLM-дердің орнын басатын емес, күрделі жасанды интеллект жүйелеріндегі жиі аралық операцияларға арналған жылдам, мамандандырылған компонент.

Ұсынылған қолдану жағдайларының ішінде деп аталады Модельдер мен құралдар арасындағы сұраныстарды жіктеу және бағыттау, RAG жүйелерінде контекстті сығымдау және өңдеу, агенттер үшін деректерді дайындау, жоспарлау, аралық нәтижелерді тексеру және бастапқы кодты немесе ішкі деректерді сыртқы API-лерге жіберу мүмкін емес орталарда жергілікті орындау.

Құшақтасып тұрған бет-әлпетпен жарияланған коллекция Меллум 2, оған бірнеше модель нұсқалары кіреді: Thinking, Instruct, Thinking-SFT, Instruct-SFT, Base және Base-Pretrain. Модельдер Safetensors форматында Apache 2.0 лицензиясы бойынша таратылады.
Іске қосу үшін Transformers, vLLM, SGLang және Docker Model Runner арқылы пайдалану мысалдары келтірілген.

Техникалық тұрғыдан қызықтырақ нәрсе - тағы бір ашық бастапқы кодты модельдің пайда болуы емес, JetBrains таңдаған тармақ. Компания ең ірі жалпы мақсаттағы модельдермен бәсекелесуге емес, IDE-лерге, ішкі көмекшілерге, корпоративтік RAG жүйелеріне және агенттік құбырларға тікелей интеграциялануы мүмкін арзан және жылдам компоненттерге назар аударады. Әзірлеушілер мен компаниялар үшін бұл кодты, деректерді және қорытынды шығындарын бақылауды сақтай отырып, кейбір жасанды интеллект логикасын жергілікті немесе өз серверлерінде іске қосу мүмкіндігін білдіреді.

Ақпарат көзі: linux.org.ru

DDoS қорғауы бар сайттар үшін сенімді хостинг, VPS VDS серверлерін сатып алыңыз 🔥 DDoS қорғанысы, VPS VDS серверлері бар сенімді веб-сайт хостингін сатып алыңыз | ProHoster