Kod sumber terbuka untuk Jina Embedding, model untuk perwakilan vektor makna teks

Jina telah sumber terbuka model pembelajaran mesin untuk perwakilan teks vektor, jina-embeddings-v2.0, di bawah lesen Apache 2. Model ini membolehkan anda menukar teks arbitrari, termasuk sehingga 8192 aksara, ke dalam urutan kecil nombor nyata yang membentuk vektor yang dibandingkan dengan teks sumber dan menghasilkan semula semantiknya (makna). Jina Embedding ialah model pembelajaran mesin terbuka pertama yang mempunyai prestasi yang sama seperti model pemvektoran teks proprietari daripada projek OpenAI (text-embedding-ada-002), juga mampu memproses teks dengan sehingga 8192 token.

Jarak antara dua vektor yang dijana boleh digunakan untuk menentukan hubungan semantik teks sumber. Dalam amalan, vektor yang dijana boleh digunakan untuk menganalisis kesamaan teks, mengatur carian untuk bahan yang berkaitan dengan topik (mengedarkan keputusan mengikut kedekatan semantik), mengumpulkan teks mengikut makna, menjana cadangan (menawarkan senarai rentetan teks yang serupa), mengenal pasti anomali, mengesan plagiarisme dan mengklasifikasikan ujian. Contoh bidang penggunaan termasuk penggunaan model untuk analisis dokumen undang-undang, untuk analisis perniagaan, dalam penyelidikan perubatan untuk memproses artikel saintifik, dalam kritikan sastera, untuk menghuraikan laporan kewangan dan untuk meningkatkan kualiti pemprosesan chatbot bagi isu yang kompleks.

Dua versi model jina-embeddings tersedia untuk dimuat turun (asas - 0.27 GB dan dikurangkan - 0.07 GB), dilatih pada 400 juta pasang urutan teks dalam bahasa Inggeris, meliputi pelbagai bidang pengetahuan. Semasa latihan, jujukan dengan saiz 512 token telah digunakan, yang diekstrapolasi kepada saiz 8192 menggunakan kaedah ALiBi (Perhatian dengan Bias Linear).

Model asas termasuk 137 juta parameter dan direka untuk digunakan pada sistem pegun dengan GPU. Model yang dikurangkan termasuk 33 juta parameter, memberikan kurang ketepatan dan bertujuan untuk digunakan pada peranti mudah alih dan sistem dengan jumlah memori yang kecil. Dalam masa terdekat mereka juga merancang untuk menerbitkan model besar yang akan meliputi 435 juta parameter. Versi berbilang bahasa model juga sedang dibangunkan, pada masa ini memfokuskan pada sokongan untuk Jerman dan Sepanyol. Pemalam telah disediakan secara berasingan untuk menggunakan model pembenaman jina melalui kit alat LLM.

Sumber: opennet.ru

Tambah komen