Jina exemplar machinale discendi ad repraesentationem textus vectorizati, jina-embeddings-v2, sub licentia Apache 2.0 emisit. Hoc exemplar textum arbitrarium usque ad 8192 characteres in parvam seriem numerorum realium convertit, vectorem formans qui textui originali respondet et eius semanticam (significationem) reproducit. Jina Embedding est primum exemplar machinale discendi fontis aperti quod perfunctionem comparabilem cum exemplo vectorizationis textus proprietario OpenAI (text-embedding-ada-002) assequitur, quod etiam textus usque ad 8192 symbola tractare potest.
Distantia inter duos vectores generatos adhiberi potest ad relationem semanticam inter textus originales determinandam. In praxi, vectores generati ad analysin similitudinis textuum, investigationem materiarum conexarum (ordinationem resultatorum secundum similitudinem semanticam), ordinationem textuum secundum significationem, generationem commendationum (suggerendum indicem similium textuum serierum), detectionem anomaliarum, identificationem plagii, et classificationem textuum adhiberi possunt. Exempla applicationum possibilium includunt usum exemplaris in analysi documentorum legalium, analytica negotiorum, investigationem medicam ad tractandas commentationes scientificas, criticam litterariam, interpretationem relationum pecuniariarum, et emendationem qualitatis tractationis quaestionum complexarum a chatbot factarum.
Duae versiones exemplaris jina-embeddings ad demptionem praesto sunt (baseline - 0.27 GB et reducta - 0.07 GB), in 400 milionibus parium serierum textuum Anglicarum varia spatia tegentium exercitatae. Exercitatio peracta est utens seriebus 512-tesserarum magnitudinis, quae ad 8192 extrapolatae sunt utens methodo ALiBi (Attention with Linear Biases).
Exemplar fundamentale 137 miliones parametrorum continet et ad usum in systematibus computatoriis cum GPU destinatum est. Exemplar redactum 33 miliones parametrorum continet, minorem praecisionem praebet, et ad machinas mobiles et systemata memoria limitata destinatur. Exemplar maius, 435 miliones parametrorum comprehendens, etiam proximo tempore publicandum destinatur. Versio multilinguis exempli etiam in progressu est, nunc in auxilio linguarum Germanicarum et Hispanicarum intendens. Instrumentum separatum ad exemplar jina-embeddings per instrumentarium LLM utendum elaboratum est.
Source: opennet.ru
