کد منبع باز برای Jina Embedding، مدلی برای نمایش برداری معنای متن

جینا یک مدل یادگیری ماشین برای نمایش متن برداری، jina-embeddings-v2، تحت مجوز آپاچی ۲.۰ منتشر کرده است. این مدل متن دلخواه تا ۸۱۹۲ کاراکتر را به یک دنباله کوچک از اعداد حقیقی تبدیل می‌کند و برداری را تشکیل می‌دهد که به متن اصلی نگاشت شده و معانی (معانی) آن را بازتولید می‌کند. جینا امبدینگ اولین مدل یادگیری ماشین متن‌باز است که به عملکردی قابل مقایسه با مدل برداری متن اختصاصی OpenAI (text-embedding-ada-002) دست می‌یابد، که همچنین قادر به پردازش متون تا ۸۱۹۲ توکن است.

فاصله بین دو بردار تولید شده می‌تواند برای تعیین رابطه معنایی بین متون منبع استفاده شود. در عمل، بردارهای تولید شده را می‌توان برای تحلیل شباهت متن، جستجوی مطالب مرتبط (رتبه‌بندی نتایج بر اساس شباهت معنایی)، گروه‌بندی متون بر اساس معنی، تولید توصیه‌ها (پیشنهاد فهرستی از رشته‌های متنی مشابه)، تشخیص ناهنجاری‌ها، شناسایی سرقت ادبی و طبقه‌بندی متون به کار برد. نمونه‌هایی از کاربردهای احتمالی شامل استفاده از این مدل در تحلیل اسناد حقوقی، تجزیه و تحلیل تجاری، تحقیقات پزشکی برای پردازش مقالات علمی، نقد ادبی، تجزیه گزارش‌های مالی و بهبود کیفیت پردازش سوالات پیچیده توسط ربات‌های چت است.

دو نسخه از مدل jina-embeddings برای دانلود در دسترس است (نسخه پایه - 0.27 گیگابایت و نسخه کاهش‌یافته - 0.07 گیگابایت)، که روی 400 میلیون جفت توالی متنی به زبان انگلیسی که دامنه‌های مختلف را پوشش می‌دهند، آموزش دیده‌اند. آموزش با استفاده از توالی‌هایی با اندازه 512 توکن انجام شد که با استفاده از روش ALiBi (توجه با سوگیری‌های خطی) به 8192 برون‌یابی شدند.

مدل پایه شامل ۱۳۷ میلیون پارامتر است و برای استفاده در سیستم‌های دسکتاپ با پردازنده‌های گرافیکی (GPU) طراحی شده است. مدل کاهش‌یافته شامل ۳۳ میلیون پارامتر است، دقت کمتری ارائه می‌دهد و برای دستگاه‌های تلفن همراه و سیستم‌هایی با حافظه محدود طراحی شده است. یک مدل بزرگتر، که ۴۳۵ میلیون پارامتر را پوشش می‌دهد، نیز برای انتشار در آینده نزدیک برنامه‌ریزی شده است. یک نسخه چندزبانه از این مدل نیز در دست توسعه است که در حال حاضر بر پشتیبانی از زبان‌های آلمانی و اسپانیایی تمرکز دارد. یک افزونه جداگانه برای استفاده از مدل jina-embeddings از طریق جعبه ابزار LLM توسعه داده شده است.

منبع: opennet.ru

خرید هاست قابل اعتماد برای سایت های دارای حفاظت DDoS، سرورهای VPS VDS 🔥 خرید هاستینگ معتبر با محافظت در برابر حملات DDoS، سرورهای VPS و VDS | ProHoster