Code open source pour Jina Embedding, un modèle de représentation vectorielle de la signification du texte

Jina a mis en open source un modèle d'apprentissage automatique pour la représentation de texte vectoriel, jina-embeddings-v2.0, sous la licence Apache 2. Le modèle vous permet de convertir un texte arbitraire, comprenant jusqu'à 8192 002 caractères, en une petite séquence de nombres réels qui forment un vecteur qui est comparé au texte source et reproduit sa sémantique (signification). Jina Embedding a été le premier modèle ouvert d'apprentissage automatique à avoir les mêmes performances que le modèle propriétaire de vectorisation de texte du projet OpenAI (text-embedding-ada-8192), également capable de traiter du texte contenant jusqu'à XNUMX XNUMX jetons.

La distance entre deux vecteurs générés peut être utilisée pour déterminer la relation sémantique des textes sources. En pratique, les vecteurs générés peuvent être utilisés pour analyser la similarité des textes, organiser une recherche de matériaux en rapport avec le sujet (classement des résultats par proximité sémantique), regrouper les textes par sens, générer des recommandations (proposer une liste de chaînes de textes similaires), identifier les anomalies, détecter le plagiat et classer les tests. Des exemples de domaines d'utilisation incluent l'utilisation du modèle pour l'analyse de documents juridiques, pour l'analyse commerciale, dans la recherche médicale pour le traitement d'articles scientifiques, dans la critique littéraire, pour l'analyse de rapports financiers et pour l'amélioration de la qualité du traitement par chatbot de questions complexes.

Deux versions du modèle jina-embeddings sont disponibles en téléchargement (de base - 0.27 Go et réduit - 0.07 Go), entraînées sur 400 millions de paires de séquences de texte en anglais, couvrant divers domaines de connaissances. Lors de l'entraînement, des séquences d'une taille de 512 jetons ont été utilisées, qui ont été extrapolées à une taille de 8192 XNUMX à l'aide de la méthode ALiBi (Attention with Linear Biases).

Le modèle de base comprend 137 millions de paramètres et est conçu pour être utilisé sur des systèmes stationnaires dotés d'un GPU. Le modèle réduit comprend 33 millions de paramètres, offre moins de précision et est destiné à être utilisé sur des appareils mobiles et des systèmes dotés d'une petite quantité de mémoire. Dans un avenir proche, ils prévoient également de publier un grand modèle qui couvrira 435 millions de paramètres. Une version multilingue du modèle est également en cours de développement, se concentrant actuellement sur la prise en charge de l'allemand et de l'espagnol. Un plugin a été préparé séparément pour utiliser le modèle jina-embeddings via la boîte à outils LLM.

Source: opennet.ru

Ajouter un commentaire