Ανοιχτός κώδικας για την Jina Embedding, ένα μοντέλο διανυσματικής αναπαράστασης του νοήματος κειμένου

Η Jina έχει ανοιχτού κώδικα ένα μοντέλο μηχανικής εκμάθησης για αναπαράσταση διανυσματικού κειμένου, jina-embeddings-v2.0, υπό την άδεια Apache 2. Το μοντέλο σάς επιτρέπει να μετατρέψετε αυθαίρετο κείμενο, συμπεριλαμβανομένων έως και 8192 χαρακτήρων, σε μια μικρή ακολουθία πραγματικών αριθμών που σχηματίζουν ένα διάνυσμα που συγκρίνεται με το κείμενο προέλευσης και αναπαράγει τη σημασιολογία του (το νόημα). Η Jina Embedding ήταν το πρώτο μοντέλο ανοιχτής μηχανικής εκμάθησης που είχε την ίδια απόδοση με το ιδιόκτητο μοντέλο διανυσματοποίησης κειμένου από το έργο OpenAI (text-embedding-ada-002), επίσης ικανό να επεξεργαστεί κείμενο με έως και 8192 διακριτικά.

Η απόσταση μεταξύ δύο δημιουργούμενων διανυσμάτων μπορεί να χρησιμοποιηθεί για τον προσδιορισμό της σημασιολογικής σχέσης των κειμένων πηγής. Στην πράξη, τα δημιουργούμενα διανύσματα μπορούν να χρησιμοποιηθούν για την ανάλυση της ομοιότητας των κειμένων, την οργάνωση αναζήτησης υλικών που σχετίζονται με το θέμα (ταξινόμηση αποτελεσμάτων κατά σημασιολογική εγγύτητα), την ομαδοποίηση κειμένων κατά νόημα, τη δημιουργία προτάσεων (προσφορά λίστας παρόμοιων συμβολοσειρών κειμένου). εντοπισμός ανωμαλιών, ανίχνευση λογοκλοπής και ταξινόμηση τεστ. Παραδείγματα τομέων χρήσης περιλαμβάνουν τη χρήση του μοντέλου για την ανάλυση νομικών εγγράφων, για ανάλυση επιχειρήσεων, για ιατρική έρευνα για επεξεργασία επιστημονικών άρθρων, λογοτεχνική κριτική, για ανάλυση οικονομικών εκθέσεων και για βελτίωση της ποιότητας της επεξεργασίας chatbot περίπλοκων ζητημάτων.

Δύο εκδόσεις του μοντέλου jina-embeddings είναι διαθέσιμες για λήψη (βασικές - 0.27 GB και μειωμένες - 0.07 GB), εκπαιδευμένες σε 400 εκατομμύρια ζεύγη ακολουθιών κειμένου στα αγγλικά, που καλύπτουν διάφορα γνωστικά πεδία. Κατά τη διάρκεια της προπόνησης χρησιμοποιήθηκαν ακολουθίες με μέγεθος 512 μάρκες, οι οποίες προεκτέθηκαν σε μέγεθος 8192 χρησιμοποιώντας τη μέθοδο ALiBi (Προσοχή με Γραμμικές Προκαταλήψεις).

Το βασικό μοντέλο περιλαμβάνει 137 εκατομμύρια παραμέτρους και έχει σχεδιαστεί για χρήση σε σταθερά συστήματα με GPU. Το μειωμένο μοντέλο περιλαμβάνει 33 εκατομμύρια παραμέτρους, παρέχει λιγότερη ακρίβεια και στοχεύει στη χρήση σε κινητές συσκευές και συστήματα με μικρή ποσότητα μνήμης. Στο εγγύς μέλλον σχεδιάζουν επίσης να δημοσιεύσουν ένα μεγάλο μοντέλο που θα καλύπτει 435 εκατομμύρια παραμέτρους. Μια πολύγλωσση έκδοση του μοντέλου βρίσκεται επίσης υπό ανάπτυξη, η οποία επί του παρόντος εστιάζει στην υποστήριξη για γερμανικά και ισπανικά. Ένα πρόσθετο έχει προετοιμαστεί ξεχωριστά για τη χρήση του μοντέλου jina-embeddings μέσω της εργαλειοθήκης LLM.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο