جینا یک مدل یادگیری ماشین برای نمایش متن برداری، jina-embeddings-v2، تحت مجوز آپاچی ۲.۰ منتشر کرده است. این مدل متن دلخواه تا ۸۱۹۲ کاراکتر را به یک دنباله کوچک از اعداد حقیقی تبدیل میکند و برداری را تشکیل میدهد که به متن اصلی نگاشت شده و معانی (معانی) آن را بازتولید میکند. جینا امبدینگ اولین مدل یادگیری ماشین متنباز است که به عملکردی قابل مقایسه با مدل برداری متن اختصاصی OpenAI (text-embedding-ada-002) دست مییابد، که همچنین قادر به پردازش متون تا ۸۱۹۲ توکن است.
فاصله بین دو بردار تولید شده میتواند برای تعیین رابطه معنایی بین متون منبع استفاده شود. در عمل، بردارهای تولید شده را میتوان برای تحلیل شباهت متن، جستجوی مطالب مرتبط (رتبهبندی نتایج بر اساس شباهت معنایی)، گروهبندی متون بر اساس معنی، تولید توصیهها (پیشنهاد فهرستی از رشتههای متنی مشابه)، تشخیص ناهنجاریها، شناسایی سرقت ادبی و طبقهبندی متون به کار برد. نمونههایی از کاربردهای احتمالی شامل استفاده از این مدل در تحلیل اسناد حقوقی، تجزیه و تحلیل تجاری، تحقیقات پزشکی برای پردازش مقالات علمی، نقد ادبی، تجزیه گزارشهای مالی و بهبود کیفیت پردازش سوالات پیچیده توسط رباتهای چت است.
دو نسخه از مدل jina-embeddings برای دانلود در دسترس است (نسخه پایه - 0.27 گیگابایت و نسخه کاهشیافته - 0.07 گیگابایت)، که روی 400 میلیون جفت توالی متنی به زبان انگلیسی که دامنههای مختلف را پوشش میدهند، آموزش دیدهاند. آموزش با استفاده از توالیهایی با اندازه 512 توکن انجام شد که با استفاده از روش ALiBi (توجه با سوگیریهای خطی) به 8192 برونیابی شدند.
مدل پایه شامل ۱۳۷ میلیون پارامتر است و برای استفاده در سیستمهای دسکتاپ با پردازندههای گرافیکی (GPU) طراحی شده است. مدل کاهشیافته شامل ۳۳ میلیون پارامتر است، دقت کمتری ارائه میدهد و برای دستگاههای تلفن همراه و سیستمهایی با حافظه محدود طراحی شده است. یک مدل بزرگتر، که ۴۳۵ میلیون پارامتر را پوشش میدهد، نیز برای انتشار در آینده نزدیک برنامهریزی شده است. یک نسخه چندزبانه از این مدل نیز در دست توسعه است که در حال حاضر بر پشتیبانی از زبانهای آلمانی و اسپانیایی تمرکز دارد. یک افزونه جداگانه برای استفاده از مدل jina-embeddings از طریق جعبه ابزار LLM توسعه داده شده است.
منبع: opennet.ru
