Oopbronkode vir Jina Embedding, 'n model vir vektorvoorstelling van teksbetekenis

Jina het 'n masjienleermodel vir vektorteksvoorstelling, jina-embeddings-v2.0, onder die Apache 2-lisensie beskikbaar gestel. Die model laat jou toe om arbitrêre teks, insluitend tot 8192 karakters, om te skakel na 'n klein reeks reële getalle wat 'n vektor vorm wat met die bronteks vergelyk word en die semantiek (betekenis) daarvan weergee. Jina Embedding was die eerste oop masjienleermodel wat dieselfde werkverrigting gehad het as die eie teksvektoriseringsmodel van die OpenAI-projek (text-embedding-ada-002), wat ook in staat was om teks met tot 8192 tokens te verwerk.

Die afstand tussen twee gegenereerde vektore kan gebruik word om die semantiese verwantskap van die brontekste te bepaal. In die praktyk kan die gegenereerde vektore gebruik word om die ooreenkomste van tekste te ontleed, 'n soektog na materiaal wat met die onderwerp verband hou (rangskik resultate volgens semantiese nabyheid), groepeer tekste volgens betekenis, genereer aanbevelings (bied 'n lys van soortgelyke teksstringe), identifiseer anomalieë, bespeur plagiaat en klassifiseer toetse. Voorbeelde van gebruiksareas sluit in die gebruik van die model vir die ontleding van regsdokumente, vir besigheidsanalise, in mediese navorsing vir die verwerking van wetenskaplike artikels, in literêre kritiek, vir die ontleding van finansiële verslae en vir die verbetering van die kwaliteit van kletsbotverwerking van komplekse kwessies.

Twee weergawes van die jina-inbeddings-model is beskikbaar vir aflaai (basies - 0.27 GB en verminder - 0.07 GB), opgelei op 400 miljoen pare teksreekse in Engels, wat verskeie kennisvelde dek. Tydens opleiding is rye met 'n grootte van 512 tokens gebruik, wat geëkstrapoleer is na 'n grootte van 8192 met behulp van die ALiBi (Attention with Linear Biases) metode.

Die basiese model bevat 137 miljoen parameters en is ontwerp vir gebruik op stilstaande stelsels met 'n GPU. Die verminderde model sluit 33 miljoen parameters in, bied minder akkuraatheid en is gemik op gebruik op mobiele toestelle en stelsels met 'n klein hoeveelheid geheue. In die nabye toekoms beplan hulle ook om 'n groot model te publiseer wat 435 miljoen parameters sal dek. 'n Meertalige weergawe van die model is ook in ontwikkeling, wat tans fokus op ondersteuning vir Duits en Spaans. 'n Inprop is afsonderlik voorberei vir die gebruik van die jina-inbeddingsmodel deur die LLM-gereedskapstel.

Bron: opennet.ru

Voeg 'n opmerking