Otvorený zdrojový kód pre Jina Embedding, model pre vektorovú reprezentáciu významu textu

Jina vytvorila open-source model strojového učenia pre vektorovú textovú reprezentáciu, jina-embeddings-v2.0, pod licenciou Apache 2. Model umožňuje previesť ľubovoľný text, vrátane až 8192 znakov, na malú postupnosť reálnych čísel, ktoré tvoria vektor, ktorý sa porovnáva so zdrojovým textom a reprodukuje jeho sémantiku (význam). Jina Embedding bol prvý otvorený model strojového učenia, ktorý mal rovnaký výkon ako proprietárny model vektorizácie textu z projektu OpenAI (text-embedding-ada-002), ktorý je tiež schopný spracovať text s až 8192 tokenmi.

Vzdialenosť medzi dvoma generovanými vektormi môže byť použitá na určenie sémantického vzťahu zdrojových textov. V praxi je možné pomocou vygenerovaných vektorov analyzovať podobnosť textov, organizovať vyhľadávanie materiálov súvisiacich s témou (zoraďovanie výsledkov podľa sémantickej blízkosti), zoskupovať texty podľa významu, generovať odporúčania (ponúkať zoznam podobných textových reťazcov), identifikovať anomálie, odhaliť plagiát a klasifikovať testy. Príklady oblastí použitia zahŕňajú použitie modelu na analýzu právnych dokumentov, na obchodné analýzy, v lekárskom výskume na spracovanie vedeckých článkov, v literárnej kritike, na analýzu finančných správ a na zlepšenie kvality spracovania zložitých problémov chatbotom.

Na stiahnutie sú k dispozícii dve verzie modelu jina-embeddings (základná - 0.27 GB a znížená - 0.07 GB), natrénované na 400 miliónoch párov textových sekvencií v angličtine, ktoré pokrývajú rôzne oblasti vedomostí. Pri tréningu boli použité sekvencie s veľkosťou 512 tokenov, ktoré boli extrapolované na veľkosť 8192 pomocou metódy ALiBi (Attention with Linear Biases).

Základný model obsahuje 137 miliónov parametrov a je určený pre použitie na stacionárnych systémoch s GPU. Zmenšený model obsahuje 33 miliónov parametrov, poskytuje menšiu presnosť a je zameraný na použitie na mobilných zariadeniach a systémoch s malým množstvom pamäte. V blízkej budúcnosti plánujú zverejniť aj veľký model, ktorý bude pokrývať 435 miliónov parametrov. Vo vývoji je aj viacjazyčná verzia modelu, ktorá sa momentálne zameriava na podporu nemčiny a španielčiny. Samostatne bol pripravený doplnok na používanie modelu jina-embeddings prostredníctvom sady nástrojov LLM.

Zdroj: opennet.ru

Pridať komentár