Jina ha rilasciato un modello di apprendimento automatico per la rappresentazione vettoriale del testo, jina-embeddings-v2.0, con licenza Apache 2. Il modello può trasformare un testo arbitrario, lungo fino a 8192 caratteri, in una piccola sequenza di numeri reali che formano un vettore, che viene mappato sul testo originale e ne riproduce la semantica (significato). Jina Embedding è diventato il primo modello di apprendimento automatico aperto con caratteristiche non inferiori al modello proprietario di vettorizzazione del testo del progetto OpenAI (text-embedding-ada-002), anch'esso in grado di elaborare testi con un massimo di 8192 token.
La distanza tra due vettori generati può essere utilizzata per determinare la relazione semantica dei testi di origine. In pratica, i vettori generati possono essere utilizzati per analizzare la similarità dei testi, organizzare la ricerca di materiali con argomenti simili (classificando i risultati in base alla similarità semantica), raggruppare i testi in base al significato, generare raccomandazioni (suggerire un elenco di stringhe di testo simili), rilevare anomalie, rilevare plagio e classificare i test. Esempi di ambiti di utilizzo includono l'uso del modello per l'analisi di documenti legali, per l'analisi aziendale, nella ricerca medica per l'elaborazione di articoli scientifici, nella critica letteraria, per l'analisi di report finanziari e per migliorare la qualità della gestione di domande complesse da parte dei chatbot.
Sono disponibili per il download due versioni del modello jina-embeddings (base - 0.27 GB e ridotta - 0.07 GB), addestrate su 400 milioni di coppie di sequenze di testo in inglese che coprono vari domini di conoscenza. L'addestramento ha utilizzato sequenze di token di dimensione pari a 512, che sono state estrapolate a 8192 utilizzando il metodo ALiBi (Attention with Linear Biases).
Il modello base include 137 milioni di parametri ed è progettato per l'uso su sistemi fissi dotati di GPU. Il modello ridotto include 33 milioni di parametri, offre una precisione inferiore ed è pensato per l'uso su dispositivi mobili e sistemi con una quantità di memoria ridotta. Nel prossimo futuro, è prevista anche la pubblicazione di un modello più ampio che coprirà 435 milioni di parametri. È in fase di sviluppo anche una versione multilingue del modello, attualmente focalizzata sul supporto di tedesco e spagnolo. È stato predisposto un plugin separato per l'utilizzo del modello jina-embeddings tramite il toolkit LLM.
Fonte: opennet.ru
