🥇JetBrains адкрыла Mellum2 – MoE-мадэль для хуткіх AI-сцэнарыяў у распрацоўцы

Кампанія JetBrains адкрыла мадэль Mellum2, Прызначаную для выкарыстання ў AI-інструментах для распрацоўкі ПЗ. Мадэль апублікавана пад ліцэнзіяй Apache 2.0, вагі даступныя на Hugging Face. У JetBrains падкрэсліваюць, што Mellum2 навучалася з нуля і разлічана не на мультымадальныя задачы, а на працу з тэкстам і кодам: маршрутызацыю запытаў, RAG-канвееры, сумарызацыю, дапаможных агентаў і прыватнае разгортванне ў інфраструктуры кампаній.

Mellum2 пабудавана па архітэктуры Сумесь экспертаў. Пры агульным памеры ў 12 параметраў на кожны токен актывуецца толькі каля 2.5 параметраў, Што павінна зніжаць вылічальныя выдаткі і затрымкі пры інферэнсе. Па сцвярджэнні JetBrains, па прадукцыйнасці на бенчмарках мадэль супастаўная з адчыненымі мадэлямі блізкага памеру, але забяспечвае больш за двухразовае паскарэнне інферэнса.

У JetBrains называюць Mellum2 развіццём першай мадэлі Mellum, якая першапачаткова стваралася для аўтадапаўнення кода. Новая версія пашырана да шырэйшага класа задач, дзе патрабуецца працаваць як з праграмным кодам, так і з натуральнай мовай. Кампанія пазіцыянуе Mellum2 як «фокусную» мадэль – не замену буйным універсальным LLM, а хуткі спецыялізаваны кампанент для частых прамежкавых аперацый усярэдзіне складаных AI-сістэм.

Сярод меркаваных сцэнарыяў выкарыстання называюцца класіфікацыя і маршрутызацыя запытаў паміж мадэлямі і прыладамі, сціск і апрацоўка кантэксту ў RAG-сістэмах, падрыхтоўка дадзеных для агентаў, планаванне, праверка прамежкавых вынікаў і лакальны запуск у асяроддзях, дзе нельга адпраўляць зыходны код ці ўнутраныя дадзеныя ў вонкавыя API.

На Hugging Face апублікаваная калекцыя Mellum 2, Якая ўключае некалькі варыянтаў мадэлі: Thinking, Instruct, Thinking-SFT, Instruct-SFT, Base і Base-Pretrain. Мадэлі распаўсюджваюцца ў фармаце Safetensors па ліцэнзіі Apache 2.0.
Для запуску прыведзены прыклады выкарыстання праз Transformers, vLLM, SGLang і Docker Model Runner.

Тэхнічна цікавейшым выглядае не сам факт з'яўлення чарговай адчыненай мадэлі для кода, а абраная JetBrains ніша. Кампанія робіць стаўку не на канкурэнцыю з самымі буйнымі ўніверсальнымі мадэлямі, а на танныя і хуткія кампаненты, якія можна ўбудаваць прама ў IDE, унутраныя асістэнты, карпаратыўныя RAG-сістэмы і агентныя канвееры. Для распрацоўнікаў і кампаній гэта азначае магчымасць запускаць частку AI-логікі лакальна ці на ўласных серверах, захоўваючы кантроль над кодам, дадзенымі і коштам інферэнса.

Крыніца: linux.org.ru