Відкритий код Jina Embedding, моделі для векторного представлення змісту тексту

Компанія Jina відкрила під ліцензією Apache 2.0 модель машинного навчання для представлення тексту — jina-embeddings-v2. Модель дозволяє перетворити довільний текст, що включає до 8192 знаків, у невелику послідовність дійсних чисел, що утворюють вектор, зіставлений з вихідним текстом і відтворює семантику (сенс). Jina Embedding стала першою відкритою моделлю машинного навчання, що має характеристики, що не поступаються пропрієтарною моделлю векторизації тексту від проекту OpenAI (text-embedding-ada-002), також здатною обробляти тексти, що налічують до 8192 токенів.

Відстань між двома сформованими векторами можна використовуватиме визначення смислової взаємозв'язку вихідних текстів. На практиці сформовані вектори можуть застосовуватися для аналізу схожості текстів, організації пошуку близьких за тематикою матеріалів (ранжування результатів за семантичною близькістю), угруповання текстів за змістом, формування рекомендацій (пропозиція списку схожих текстових рядків), виявлення аномалій, визначення плагіату та класифікації тестів. Як приклади областей використання згадується задіяння моделі для аналізу юридичних документів, для бізнес-аналітики, у медичних дослідженнях для обробки наукових статей, у літературній критиці, для розбору фінансових звітів та для підвищення якості обробки чат-ботами складних питань.

Для завантаження доступні два варіанти моделі jina-embeddings (базова – 0.27 ГБ та скорочена – 0.07 ГБ), навчені на 400 мільйонах пар текстових послідовностей англійською мовою, що охоплюють різні галузі знань. При навчанні використовувалися послідовності розміром 512 токенів, які були екстраполовані до розміру 8192 за допомогою методу ALiBi (Attention with Linear Biases).

Базова модель включає 137 млн ​​параметрів і розрахована на використанні на стаціонарних системах з GPU. Скорочена модель включає 33 млн. параметрів, забезпечує меншу точність і націлена на застосування на мобільних пристроях та системах з невеликим об'ємом пам'яті. Найближчим часом також планують опублікувати велику модель, яка охоплюватиме 435 млн параметрів. У розробці також є багатомовний варіант моделі, який в даний час зосереджений на підтримці німецької та іспанської мов. Окремо підготовлено плагін для використання моделі jina-embeddings через інструментарій LLM.

Джерело: opennet.ru

Додати коментар або відгук