Open source code voor Jina Embedding, een model voor vectorrepresentatie van tekstbetekenis

Jina heeft een machine learning-model voor vectortekstrepresentatie, jina-embeddings-v2.0, open source gemaakt onder de Apache 2-licentie. Met het model kunt u willekeurige tekst, inclusief maximaal 8192 tekens, omzetten in een kleine reeks reële getallen die een vector vormen die wordt vergeleken met de brontekst en de semantiek (betekenis) ervan reproduceert. Jina Embedding was het eerste open machine learning-model dat dezelfde prestaties leverde als het eigen tekstvectorisatiemodel van het OpenAI-project (text-embedding-ada-002), dat ook tekst met maximaal 8192 tokens kon verwerken.

De afstand tussen twee gegenereerde vectoren kan worden gebruikt om de semantische relatie van de bronteksten te bepalen. In de praktijk kunnen de gegenereerde vectoren worden gebruikt om de gelijkenis van teksten te analyseren, een zoekopdracht te organiseren naar materiaal dat verband houdt met het onderwerp (resultaten te rangschikken op basis van semantische nabijheid), teksten te groeperen op betekenis, aanbevelingen te genereren (een lijst met vergelijkbare tekstreeksen aan te bieden), afwijkingen identificeren, plagiaat opsporen en tests classificeren. Voorbeelden van toepassingsgebieden zijn onder meer het gebruik van het model voor de analyse van juridische documenten, voor bedrijfsanalyses, in medisch onderzoek voor het verwerken van wetenschappelijke artikelen, in de literaire kritiek, voor het parseren van financiële rapporten en voor het verbeteren van de kwaliteit van chatbotverwerking van complexe vraagstukken.

Er zijn twee versies van het jina-embeddings-model beschikbaar om te downloaden (basis - 0.27 GB en beperkt - 0.07 GB), getraind op 400 miljoen paren tekstreeksen in het Engels, die verschillende kennisgebieden bestrijken. Tijdens de training werd gebruik gemaakt van reeksen met een grootte van 512 tokens, die met behulp van de ALiBi-methode (Attention with Linear Biases) werden geëxtrapoleerd naar een grootte van 8192.

Het basismodel bevat 137 miljoen parameters en is ontworpen voor gebruik op stationaire systemen met een GPU. Het gereduceerde model bevat 33 miljoen parameters, biedt minder nauwkeurigheid en is gericht op gebruik op mobiele apparaten en systemen met een kleine hoeveelheid geheugen. In de nabije toekomst zijn ze ook van plan een groot model te publiceren dat 435 miljoen parameters zal omvatten. Er wordt ook gewerkt aan een meertalige versie van het model, waarbij de nadruk momenteel ligt op ondersteuning voor Duits en Spaans. Er is afzonderlijk een plug-in voorbereid voor het gebruik van het jina-embeddings-model via de LLM-toolkit.

Bron: opennet.ru

Voeg een reactie