JetBrains otworzył model Mellum2, zaprojektowany do użytku w narzędziach AI do tworzenia oprogramowania. Model jest publikowany na licencji Apache 2.0Wagi są dostępne na platformie Hugging Face. JetBrains podkreśla, że Mellum2 został przeszkolony od podstaw i jest przeznaczony nie do zadań multimodalnych, ale do pracy z tekstem i kodem: routingu żądań, potoków RAG, podsumowań, agentów pomocniczych i prywatnych wdrożeń w infrastrukturze firmy.
Mellum2 jest zbudowany na architekturze Mieszanka ekspertówO łącznej wielkości 12 miliarda parametrów Na każdy token przypada tylko około 1000 aktywnych 2.5 miliarda parametrów, co powinno zmniejszyć koszty obliczeniowe i opóźnienia podczas wnioskowania. Według JetBrains, wydajność testowa modelu jest porównywalna z modelami open source o podobnej wielkości, ale zapewnia ponad dwukrotnie większą szybkość wnioskowania.
JetBrains opisuje Mellum2 jako ewolucję oryginalnego modelu Mellum, który pierwotnie został stworzony do uzupełniania kodu. Nowa wersja rozszerza się na szerszą klasę zadań wymagających pracy zarówno z kodem programu, jak i językiem naturalnym. Firma pozycjonuje Mellum2 jako model „skoncentrowany” – nie jako zamiennik dużych, uniwersalnych modeli LLM, lecz jako szybki, wyspecjalizowany komponent do częstych operacji pośrednich w złożonych systemach AI.
Wśród proponowanych przypadków użycia znajdują się: są nazywane Klasyfikacja i kierowanie żądań pomiędzy modelami i narzędziami, kompresja i przetwarzanie kontekstu w systemach RAG, przygotowywanie danych dla agentów, planowanie, walidacja wyników pośrednich i lokalne wykonywanie w środowiskach, w których nie jest możliwe wysłanie kodu źródłowego lub danych wewnętrznych do zewnętrznych interfejsów API.
Na twarzy przytulania opublikowany kolekcja Mellum 2, który obejmuje kilka wariantów modeli: Thinking, Instruct, Thinking-SFT, Instruct-SFT, Base i Base-Pretrain. Modele są dystrybuowane w formacie Safetensors na licencji Apache 2.0.
Podano przykłady użycia za pośrednictwem Transformers, vLLM, SGLang i Docker Model Runner do uruchomienia.
Bardziej interesujące z technicznego punktu widzenia jest nie pojawienie się kolejnego modelu open source, ale nisza, którą wybrał JetBrains. Firma nie koncentruje się na konkurowaniu z największymi modelami ogólnego przeznaczenia, ale na tanich i szybkich komponentach, które można zintegrować bezpośrednio ze środowiskami programistycznymi (IDE), asystentami wewnętrznymi, korporacyjnymi systemami RAG i potokami agentów. Dla programistów i firm oznacza to możliwość uruchamiania części logiki AI lokalnie lub na własnych serwerach, przy jednoczesnym zachowaniu kontroli nad kosztami kodu, danych i wnioskowania.
Źródło: linux.org.ru




