Jina Embedding uchun ochiq manba kodi, matn ma'nosini vektor ko'rsatish modeli

Jina Apache 2.0 litsenziyasi ostida jina-embeddings-v2 vektorli matnni ko'rsatish uchun ochiq manbali mashinani o'rganish modelini yaratdi. Model ixtiyoriy matnni, shu jumladan 8192 belgigacha bo'lgan belgilarni dastlabki matn bilan taqqoslanadigan va uning semantikasini (ma'nosini) takrorlaydigan vektorni tashkil etuvchi haqiqiy raqamlarning kichik ketma-ketligiga aylantirish imkonini beradi. Jina Embedding birinchi ochiq mashina o'rganish modeli bo'lib, OpenAI loyihasining xususiy matn vektorlashtirish modeli (text-embedding-ada-002) bilan bir xil ishlashga ega bo'lib, 8192 tagacha tokenlar bilan matnni qayta ishlashga qodir.

Ikki hosil qilingan vektor orasidagi masofa manba matnlarining semantik munosabatini aniqlash uchun ishlatilishi mumkin. Amalda yaratilgan vektorlardan matnlarning o'xshashligini tahlil qilish, mavzuga oid materiallarni qidirishni tashkil qilish (natijalarni semantik yaqinlik bo'yicha tartiblash), matnlarni ma'no bo'yicha guruhlash, tavsiyalar yaratish (o'xshash matn satrlari ro'yxatini taklif qilish), anomaliyalarni aniqlash, plagiatni aniqlash va testlarni tasniflash. Foydalanish sohalariga misollar qatoriga huquqiy hujjatlarni tahlil qilish, biznes-tahlil qilish, tibbiy tadqiqotlarda ilmiy maqolalarni qayta ishlash, adabiy tanqid, moliyaviy hisobotlarni tahlil qilish va murakkab masalalarni chatbot orqali qayta ishlash sifatini oshirish uchun modeldan foydalanish kiradi.

Jina-embeddings modelining ikkita versiyasini yuklab olish mumkin (asosiy - 0.27 GB va qisqartirilgan - 0.07 GB), turli xil bilim sohalarini qamrab olgan ingliz tilida 400 million juft matn ketma-ketligi bo'yicha o'qitilgan. Trening davomida ALiBi (Linear Biases bilan diqqat) usuli yordamida 512 o'lchamiga ekstrapolyatsiya qilingan 8192 token o'lchamli ketma-ketliklardan foydalanildi.

Asosiy model 137 million parametrni o'z ichiga oladi va GPU bilan statsionar tizimlarda foydalanish uchun mo'ljallangan. Qisqartirilgan model 33 million parametrni o'z ichiga oladi, kamroq aniqlikni ta'minlaydi va kichik hajmdagi xotiraga ega mobil qurilmalar va tizimlarda foydalanishga qaratilgan. Yaqin kelajakda ular 435 million parametrni qamrab oladigan katta modelni ham nashr etishni rejalashtirmoqda. Modelning koβ€˜p tilli versiyasi ham ishlab chiqilmoqda, hozirda asosiy e’tibor nemis va ispan tillarini qoβ€˜llab-quvvatlashga qaratilgan. LLM asboblar to'plami orqali jina-embeddings modelini ishlatish uchun plagin alohida tayyorlangan.

Manba: opennet.ru

a Izoh qo'shish