Open-Source-Code für Jina Embedding, ein Modell zur Vektordarstellung der Textbedeutung

Jina hat ein maschinelles Lernmodell für die Vektortextdarstellung, jina-embeddings-v2.0, unter der Apache 2-Lizenz als Open-Source-Lösung bereitgestellt. Mit dem Modell können Sie beliebigen Text mit bis zu 8192 Zeichen in eine kleine Folge reeller Zahlen umwandeln, die einen Vektor bilden, der mit dem Quelltext verglichen wird und dessen Semantik (Bedeutung) wiedergibt. Jina Embedding war das erste offene Modell für maschinelles Lernen, das die gleiche Leistung wie das proprietäre Textvektorisierungsmodell aus dem OpenAI-Projekt (text-embedding-ada-002) hatte und außerdem Text mit bis zu 8192 Token verarbeiten konnte.

Der Abstand zwischen zwei generierten Vektoren kann zur Bestimmung der semantischen Beziehung der Quelltexte genutzt werden. In der Praxis können die generierten Vektoren verwendet werden, um die Ähnlichkeit von Texten zu analysieren, eine Suche nach Materialien zum Thema zu organisieren (Ergebnisse nach semantischer Nähe einordnen), Texte nach Bedeutung zu gruppieren, Empfehlungen zu generieren (eine Liste ähnlicher Textzeichenfolgen anzubieten), Anomalien identifizieren, Plagiate erkennen und Tests klassifizieren. Beispiele für Einsatzgebiete sind der Einsatz des Modells zur Analyse juristischer Dokumente, für Business Analytics, in der medizinischen Forschung zur Bearbeitung wissenschaftlicher Artikel, in der Literaturkritik, zum Parsen von Finanzberichten und zur Verbesserung der Qualität der Chatbot-Bearbeitung komplexer Sachverhalte.

Zwei Versionen des jina-embeddings-Modells stehen zum Download zur Verfügung (Basis – 0.27 GB und reduziert – 0.07 GB), trainiert auf 400 Millionen Textsequenzpaaren in Englisch, die verschiedene Wissensgebiete abdecken. Beim Training wurden Sequenzen mit einer Größe von 512 Token verwendet, die mit der ALiBi-Methode (Attention with Linear Biases) auf eine Größe von 8192 hochgerechnet wurden.

Das Basismodell umfasst 137 Millionen Parameter und ist für den Einsatz auf stationären Systemen mit GPU konzipiert. Das reduzierte Modell umfasst 33 Millionen Parameter, bietet eine geringere Genauigkeit und ist auf den Einsatz auf mobilen Geräten und Systemen mit wenig Speicher ausgerichtet. In naher Zukunft planen sie außerdem die Veröffentlichung eines großen Modells, das 435 Millionen Parameter abdecken wird. Eine mehrsprachige Version des Modells befindet sich ebenfalls in der Entwicklung, wobei der Schwerpunkt derzeit auf der Unterstützung von Deutsch und Spanisch liegt. Für die Verwendung des jina-embeddings-Modells über das LLM-Toolkit wurde separat ein Plugin vorbereitet.

Source: opennet.ru

Kommentar hinzufügen