Nyílt forráskód a Jina Embeddinghez, a szöveg jelentésének vektoros ábrázolásának modelljéhez

A Jina nyílt forráskódú gépi tanulási modellt készített a vektoros szövegábrázoláshoz, a jina-embeddings-v2.0-t, az Apache 2 licenc alatt. A modell lehetővé teszi tetszőleges, legfeljebb 8192 karakterből álló szöveg átalakítását valós számok kis sorozatává, amelyek egy vektort alkotnak, amelyet összehasonlítanak a forrásszöveggel, és reprodukálja annak szemantikáját (jelentését). A Jina Embedding volt az első olyan nyílt gépi tanulási modell, amely ugyanolyan teljesítménnyel rendelkezik, mint az OpenAI projekt szabadalmaztatott szövegvektorizálási modellje (text-embedding-ada-002), amely akár 8192 tokennel is képes szöveget feldolgozni.

A két generált vektor távolsága felhasználható a forrásszövegek szemantikai kapcsolatának meghatározására. A gyakorlatban a generált vektorok felhasználhatók szövegek hasonlóságának elemzésére, a témához kapcsolódó anyagok keresésének megszervezésére (eredmények szemantikai közelség szerinti rangsorolására), szövegek jelentés szerinti csoportosítására, ajánlások generálására (hasonló szövegsorok listájának felajánlására), az anomáliák azonosítása, a plágium felderítése és a tesztek osztályozása. Felhasználási területként említhető a modell alkalmazása jogi dokumentumok elemzésére, üzleti elemzésre, orvosi kutatásokban tudományos cikkek feldolgozására, irodalomkritikára, pénzügyi jelentések elemzésére, valamint összetett kérdések chatbot-feldolgozásának minőségének javítására.

A jina-beágyazási modell két verziója letölthető (alap - 0.27 GB és csökkentett - 0.07 GB), amelyek 400 millió pár angol szövegszekvenciára lettek kiképezve, különféle tudásterületeket lefedve. A képzés során 512 token méretű szekvenciákat használtak, amelyeket az ALiBi (Attention with Linear Biases) módszerrel 8192-es méretre extrapoláltak.

Az alapmodell 137 millió paramétert tartalmaz, és GPU-val rendelkező helyhez kötött rendszereken való használatra készült. A csökkentett modell 33 millió paramétert tartalmaz, kisebb pontosságot biztosít, és kis memóriával rendelkező mobileszközökön és rendszereken való használatra készült. A közeljövőben egy nagyméretű, 435 millió paramétert lefedő modell kiadását is tervezik. A modell többnyelvű változata is fejlesztés alatt áll, jelenleg a német és a spanyol nyelv támogatására összpontosít. A jina-beágyazási modell használatához az LLM eszköztáron keresztül külön beépülő modul készült.

Forrás: opennet.ru

Hozzászólás