Open Source Code fir Jina Embedding, e Modell fir Vector Representatioun vun Textbedeitung

Jina huet en Open-Source Maschinn Léiermodell fir Vektor Text Representatioun, jina-embeddings-v2.0, ënner der Apache 2 Lizenz. De Modell erlaabt Iech arbiträr Text ze konvertéieren, dorënner bis zu 8192 Zeechen, an eng kleng Sequenz vun reellen Zuelen, déi e Vektor bilden, dee mam Quelltext verglach gëtt a seng Semantik (Bedeitung) reproduzéiert. Jina Embedding war den éischten oppene Maschinn Léiermodell fir déiselwecht Leeschtung ze hunn wéi de propriétaire Textvektoriséierungsmodell vum OpenAI Projet (Text-embedding-ada-002), och fäeg fir Text mat bis zu 8192 Tokens ze veraarbecht.

D'Distanz tëscht zwee generéiert Vektore kann benotzt ginn fir d'semantesch Relatioun vun de Quelltexter ze bestëmmen. An der Praxis kënnen déi generéiert Vektore benotzt ginn fir d'Ähnlechkeet vun Texter ze analyséieren, eng Sich no Materialien am Zesummenhang mat dem Thema z'organiséieren (Ranking Resultater no semantescher Proximitéit), Texter no Bedeitung gruppéieren, Empfehlungen generéieren (eng Lëscht vun ähnlechen Textstringen ubidden), z'identifizéieren Anomalien, Plagiat z'entdecken an Tester klassifizéieren. Beispiller vu Benotzungsfäll enthalen d'Benotzung vum Modell fir d'Analyse vu juristeschen Dokumenter, fir Geschäftsanalytik, an der medizinescher Fuerschung fir d'Veraarbechtung vun wëssenschaftlechen Artikelen, an der Literaturkritik, fir d'Analyse vun finanzielle Berichter a fir d'Verbesserung vun der Qualitéit vun Chatbots déi komplex Themen veraarbecht.

Zwou Versioune vum jina-embeddings Modell sinn verfügbar fir erofzelueden (Basis - 0.27 GB a reduzéiert - 0.07 GB), trainéiert op 400 Millioune Puer Textsequenzen op Englesch, déi verschidde Wëssensfelder ofdecken. Wärend Training goufen Sequenzen mat enger Gréisst vun 512 Tokens benotzt, déi op eng Gréisst vun 8192 extrapoléiert goufen mat der ALiBi (Attention with Linear Biases) Method.

De Basismodell enthält 137 Millioune Parameteren an ass entwéckelt fir op stationäre Systemer mat enger GPU ze benotzen. De reduzéierte Modell enthält 33 Millioune Parameteren, bitt manner Genauegkeet a riicht op d'Benotzung op mobilen Apparater a Systemer mat enger klenger Quantitéit un Erënnerung. An der nächster Zukunft plangen se och e grousse Modell ze publizéieren deen 435 Millioune Parameteren ofdeckt. Eng méisproocheg Versioun vum Modell ass och an der Entwécklung, am Moment konzentréiert sech op Ënnerstëtzung fir Däitsch a Spuenesch. E Plugin gouf separat virbereet fir de Jina-embeddings Modell duerch den LLM Toolkit ze benotzen.

Source: opennet.ru

Setzt e Commentaire