🥇JetBrains-ek Mellum2 ireki du, garapen fasean dagoen IA eszenatoki azkarretarako MoE eredu bat

JetBrains-ek modelo bat ireki du Mellum2, software garapenerako IA tresnetan erabiltzeko diseinatua. Eredua lizentzia baten pean argitaratzen da Apache 2.0Pisuak Hugging Face-n daude eskuragarri. JetBrains-ek azpimarratzen du Mellum2 hutsetik entrenatu zela eta ez dela zeregin multimodaletarako diseinatu, testuarekin eta kodearekin lan egiteko baizik: eskaeren bideratzea, RAG hodiak, laburpena, agente laguntzaileak eta enpresaren azpiegituretan hedapen pribatua.

Mellum2 arkitektura honetan oinarrituta dago Adituen nahasketaGuztirako tamainarekin. 12 milioi parametro Token bakoitzeko 1000 inguru bakarrik aktibatzen dira 2.5 milioi parametro, eta horrek konputazio-kostuak eta inferentziaren latentzia murriztu beharko lituzke. JetBrains-en arabera, ereduaren erreferentziazko errendimendua tamaina bereko kode irekiko ereduekin alderagarria da, baina inferentziaren abiadura bikoitza baino gehiago eskaintzen du.

JetBrains-ek Mellum2 jatorrizko Mellum ereduaren bilakaera gisa deskribatzen du, hasieran kodea osatzeko sortua. Bertsio berriak programa-kodearekin eta hizkuntza naturalarekin lan egitea eskatzen duten zeregin-klase zabalago batera zabaltzen da. Enpresak Mellum2 "fokatuta" dagoen eredu gisa kokatzen du; ez LLM handi eta orokorren ordezko gisa, baizik eta IA sistema konplexuetan tarteko eragiketa maizetarako osagai azkar eta espezializatu gisa.

Proposatutako erabilera kasuen artean daude deitzen dira Eskaeren sailkapena eta bideratzea modeloen eta tresnen artean, testuinguruaren konpresioa eta prozesamendua RAG sistemetan, datuak agenteentzat prestatzea, programazioa, tarteko emaitzen baliozkotzea eta tokiko exekuzioa kanpoko APIetara iturburu-kodea edo barne-datuak bidaltzea posible ez den inguruneetan.

Aurpegia besarkatzen argitaratua bilduma bat Mellum 2, hainbat modelo aldaera barne hartzen dituena: Thinking, Instruct, Thinking-SFT, Instruct-SFT, Base eta Base-Pretrain. Modeloak Safetensors formatuan banatzen dira Apache 2.0 lizentziapean.
Abiarazteko, Transformers, vLLM, SGLang eta Docker Model Runner bidezko erabileraren adibideak ematen dira.

Teknikoki interesgarriagoa ez da beste kode irekiko eredu baten agerpena, baizik eta JetBrains-ek aukeratu duen nitxoa. Konpainiak ez du helburu orokorreko eredu handienekin lehiatzean zentratzen, baizik eta IDEetan, barne laguntzaileetan, enpresako RAG sistemetan eta agenteen hodietan zuzenean integra daitezkeen kostu baxuko eta azkarreko osagaietan. Garatzaile eta enpresentzat, horrek esan nahi du IA logika batzuk tokian bertan edo beren zerbitzarietan exekutatzeko gaitasuna dutela, kodearen, datuen eta inferentzia kostuen gaineko kontrola mantenduz.

Iturria: linux.org.ru

JetBrains-ek Mellum2 ireki du, garapen fasean dagoen IA eszenatoki azkarretarako MoE eredu bat.