Jina vytvořila open source model strojového učení pro vektorovou textovou reprezentaci, jina-embeddings-v2.0, pod licencí Apache 2. Model umožňuje převést libovolný text, včetně až 8192 znaků, na malou sekvenci reálných čísel, která tvoří vektor, který je porovnáván se zdrojovým textem a reprodukuje jeho sémantiku (význam). Jina Embedding byl prvním otevřeným modelem strojového učení, který měl stejný výkon jako proprietární model vektorizace textu z projektu OpenAI (text-embedding-ada-002), rovněž schopný zpracovat text až s 8192 tokeny.
Vzdálenost mezi dvěma generovanými vektory lze použít k určení sémantického vztahu zdrojových textů. V praxi lze pomocí vygenerovaných vektorů analyzovat podobnost textů, organizovat vyhledávání materiálů souvisejících s tématem (řazení výsledků podle sémantické blízkosti), seskupovat texty podle významu, generovat doporučení (nabízet seznam podobných textových řetězců), identifikovat anomálie, odhalit plagiátorství a klasifikovat testy. Příklady oblastí použití zahrnují použití modelu pro analýzu právních dokumentů, pro obchodní analytiku, v lékařském výzkumu pro zpracování vědeckých článků, v literární kritice, pro analýzu finančních zpráv a pro zlepšení kvality zpracování složitých problémů chatbotem.
Ke stažení jsou k dispozici dvě verze modelu jina-embeddings (základní - 0.27 GB a zmenšená - 0.07 GB), natrénované na 400 milionech párů textových sekvencí v angličtině, pokrývající různé oblasti znalostí. Při trénování byly použity sekvence o velikosti 512 tokenů, které byly extrapolovány na velikost 8192 metodou ALiBi (Attention with Linear Biases).
Základní model obsahuje 137 milionů parametrů a je určen pro použití na stacionárních systémech s GPU. Zmenšený model obsahuje 33 milionů parametrů, poskytuje menší přesnost a je zaměřen na použití na mobilních zařízeních a systémech s malým množstvím paměti. V blízké budoucnosti plánují také zveřejnit velký model, který pokryje 435 milionů parametrů. Ve vývoji je také vícejazyčná verze modelu, která se aktuálně zaměřuje na podporu němčiny a španělštiny. Samostatně byl připraven plugin pro použití modelu jina-embeddings prostřednictvím sady nástrojů LLM.
Zdroj: opennet.ru
