Jina telah mengeluarkan model pembelajaran mesin untuk perwakilan teks bervektor, jina-embeddings-v2, di bawah lesen Apache 2.0. Model ini menukarkan teks arbitrari sehingga 8192 aksara ke dalam urutan kecil nombor nyata, membentuk vektor yang dipetakan kepada teks asal dan menghasilkan semula semantiknya (makna). Jina Embedding ialah model pembelajaran mesin sumber terbuka pertama yang mencapai prestasi yang setanding dengan model pemvektoran teks proprietari OpenAI (text-embedding-ada-002), yang juga mampu memproses teks sehingga 8192 token.
Jarak antara dua vektor yang dijana boleh digunakan untuk menentukan hubungan semantik antara teks sumber. Dalam praktiknya, vektor yang dijana boleh digunakan untuk analisis persamaan teks, mencari bahan berkaitan (keputusan keputusan mengikut persamaan semantik), mengumpulkan teks mengikut makna, menjana cadangan (mencadangkan senarai rentetan teks yang serupa), mengesan anomali, mengenal pasti plagiarisme dan mengelaskan teks. Contoh aplikasi yang mungkin termasuk penggunaan model dalam analisis dokumen undang-undang, analisis perniagaan, penyelidikan perubatan untuk memproses artikel saintifik, kritikan sastera, menghuraikan laporan kewangan dan meningkatkan kualiti pemprosesan chatbot bagi soalan yang kompleks.
Dua versi model jina-embeddings tersedia untuk dimuat turun (garis dasar - 0.27 GB dan dikurangkan - 0.07 GB), dilatih pada 400 juta pasang jujukan teks bahasa Inggeris yang meliputi pelbagai domain. Latihan dilakukan menggunakan urutan saiz 512-token, yang diekstrapolasi kepada 8192 menggunakan kaedah ALiBi (Perhatian dengan Bias Linear).
Model asas termasuk 137 juta parameter dan direka bentuk untuk digunakan pada sistem desktop dengan GPU. Model yang dikurangkan termasuk 33 juta parameter, memberikan ketepatan yang lebih rendah, dan disasarkan pada peranti mudah alih dan sistem dengan memori terhad. Model yang lebih besar, meliputi 435 juta parameter, juga dirancang untuk diterbitkan dalam masa terdekat. Versi berbilang bahasa model juga sedang dibangunkan, pada masa ini memfokuskan pada sokongan untuk Jerman dan Sepanyol. Pemalam berasingan untuk menggunakan model pembenaman jina melalui kit alat LLM telah dibangunkan.
Sumber: opennet.ru
