Otwarty kod źródłowy Jina Embedding, modelu wektorowej reprezentacji znaczenia tekstu

Jina udostępniła model uczenia maszynowego do reprezentacji tekstu wektorowego na zasadach open source, jina-embeddings-v2.0, na licencji Apache 2. Model umożliwia konwersję dowolnego tekstu, zawierającego do 8192 znaków, na niewielki ciąg liczb rzeczywistych tworzących wektor, który jest porównywany z tekstem źródłowym i odtwarza jego semantykę (znaczenie). Jina Embedding była pierwszym otwartym modelem uczenia maszynowego, który miał taką samą wydajność, jak autorski model wektoryzacji tekstu z projektu OpenAI (text-embedding-ada-002), a także był w stanie przetwarzać tekst za pomocą aż 8192 tokenów.

Odległość między dwoma wygenerowanymi wektorami można wykorzystać do określenia pokrewieństwa semantycznego tekstów źródłowych. W praktyce wygenerowane wektory można wykorzystać do analizy podobieństwa tekstów, organizacji wyszukiwania materiałów związanych z tematem (ranking wyników według bliskości semantycznej), grupowania tekstów według znaczenia, generowania rekomendacji (oferowania listy podobnych ciągów tekstowych), identyfikować anomalie, wykrywać plagiaty i klasyfikować testy. Przykładowe obszary zastosowań obejmują wykorzystanie modelu do analizy dokumentów prawnych, analityki biznesowej, badań medycznych do przetwarzania artykułów naukowych, krytyki literackiej, analizy raportów finansowych oraz poprawy jakości przetwarzania skomplikowanych zagadnień przez chatbota.

Do pobrania dostępne są dwie wersje modelu jina-embeddings (podstawowa – 0.27 GB i zredukowana – 0.07 GB), trenowana na 400 milionach par sekwencji tekstowych w języku angielskim, obejmujących różne dziedziny wiedzy. Podczas uczenia wykorzystano sekwencje o rozmiarze 512 tokenów, które ekstrapolowano do rozmiaru 8192 przy użyciu metody ALiBi (Attention with Linear Biases).

Podstawowy model zawiera 137 milionów parametrów i jest przeznaczony do stosowania na systemach stacjonarnych z procesorem graficznym. Zredukowany model zawiera 33 miliony parametrów, zapewnia mniejszą dokładność i jest przeznaczony do stosowania na urządzeniach mobilnych i systemach z małą ilością pamięci. W najbliższej przyszłości planują także opublikować duży model, który obejmie 435 milionów parametrów. Opracowywana jest także wielojęzyczna wersja modelu, skupiająca się obecnie na obsłudze języka niemieckiego i hiszpańskiego. Odrębnie przygotowano wtyczkę umożliwiającą korzystanie z modelu jina-embeddings poprzez zestaw narzędzi LLM.

Źródło: opennet.ru

Dodaj komentarz