Jina Embedding-erako kode irekia, testuaren esanahiaren irudikapen bektorialaren eredua

Jina-k iturburu irekia du testu bektorialaren irudikapenerako ikaskuntza-eredu bat, jina-embeddings-v2.0, Apache 2 lizentziapean. Ereduari esker, testu arbitrarioa, gehienez 8192 karaktere barne, zenbaki errealen sekuentzia txiki batean bihur daiteke, sorburu-testuarekin alderatzen den bektore bat osatzen duena eta haren semantika (esanahia) erreproduzitzen duena. Jina Embedding OpenAI proiektuko (text-embedding-ada-002) testu-bektorizazio ereduaren errendimendu bera izan zuen makina irekiko ikaskuntza-eredua izan zen, 8192 tokenekin testua prozesatzeko gai dena ere.

Sortutako bi bektoreen arteko distantzia iturri-testuen erlazio semantikoa zehazteko erabil daiteke. Praktikan, sortutako bektoreak testuen antzekotasuna aztertzeko, gaiarekin lotutako materialen bilaketa antolatzeko (gertutasun semantikoaren araberako emaitzak sailkatzea), testuak esanahiaren arabera taldekatzeko, gomendioak sortzeko (antzeko testu-kateen zerrenda eskaintzeko), erabil daitezke. anomaliak identifikatzea, plagioa detektatu eta probak sailkatzea. Erabilera-eremuen adibideak dira dokumentu juridikoak aztertzeko, negozio-analisirako, artikulu zientifikoak prozesatzeko ikerketa medikoetan, literatur kritikan, finantza-txostenak aztertzeko eta gai konplexuen chatbot-en prozesamenduaren kalitatea hobetzeko eredua erabiltzea.

Jina-embeddings ereduaren bi bertsio deskargatzeko eskuragarri daude (oinarrizkoa - 0.27 GB eta murriztua - 0.07 GB), ingelesez 400 milioi testu-sekuentzia bikotetan trebatuta, hainbat ezagutza-eremu hartzen dituena. Prestakuntzan, 512 token tamainako sekuentziak erabili ziren, 8192 tamainara estrapolatu ziren ALiBi (Atenzioa Lineal Biases) metodoa erabiliz.

Oinarrizko ereduak 137 milioi parametro ditu eta GPU bat duten sistema geldikorretan erabiltzeko diseinatuta dago. Eredu murriztuak 33 milioi parametro biltzen ditu, zehaztasun gutxiago eskaintzen du eta memoria kopuru txikia duten gailu mugikor eta sistemetan erabiltzeko dago zuzenduta. Etorkizun hurbilean 435 milioi parametro beteko dituen modelo handi bat ere argitaratzeko asmoa dute. Ereduaren bertsio eleaniztun bat ere garatzen ari da, gaur egun alemanerako eta gaztelaniarako laguntzari begira. Plugin bat bereizita prestatu da jina-embeddings eredua LLM tresnaren bidez erabiltzeko.

Iturria: opennet.ru

Gehitu iruzkin berria