OpenChatKit را منتشر کرد، ابزاری برای ساخت ربات‌های گفتگو

جعبه ابزار باز OpenChatKit با هدف ساده سازی ایجاد ربات های گفتگو برای کاربردهای تخصصی و عمومی معرفی شده است. این سیستم برای انجام وظایفی مانند پاسخ به سؤالات، انجام گفتگوهای چند مرحله ای، خلاصه کردن، استخراج اطلاعات، طبقه بندی متن سازگار است. کد به زبان پایتون نوشته شده و تحت مجوز آپاچی 2.0 توزیع شده است. این پروژه شامل یک مدل آماده، کد برای آموزش مدل شما، ابزارهای کاربردی برای آزمایش نتایج مدل، ابزار تکمیل مدل با زمینه از یک شاخص خارجی و تطبیق مدل پایه برای حل مشکلات خود است.

این ربات مبتنی بر یک مدل یادگیری ماشینی اولیه (GPT-NeoXT-Chat-Base-20B) است که با استفاده از یک مدل زبانی که حدود 20 میلیارد پارامتر را پوشش می دهد ساخته شده و برای ارتباطات مکالمه بهینه شده است. این مدل با استفاده از داده‌های به‌دست‌آمده از مجموعه‌های پروژه‌های LAION، Together و Ontocord.ai آموزش داده شد.

برای گسترش پایگاه دانش موجود، سیستمی پیشنهاد شده است که قادر به استخراج اطلاعات اضافی از مخازن خارجی، APIها و سایر منابع است. به عنوان مثال، امکان به روز رسانی اطلاعات با استفاده از داده های ویکی پدیا و فیدهای خبری وجود دارد. علاوه بر این، یک مدل تعدیل در دسترس است که با 6 میلیارد پارامتر آموزش داده شده است، بر اساس مدل GPT-JT، و برای فیلتر کردن سوالات نامناسب یا محدود کردن بحث ها به موضوعات خاص طراحی شده است.

به طور جداگانه، می‌توانیم به پروژه ChatLLaMA اشاره کنیم که کتابخانه‌ای برای ایجاد دستیارهای هوشمند مشابه ChatGPT ارائه می‌کند. این پروژه با توجه به امکان اجرا بر روی تجهیزات خود و ایجاد راه حل های شخصی طراحی شده برای پوشش مناطق محدود دانش (به عنوان مثال، پزشکی، حقوق، بازی ها، تحقیقات علمی و غیره) در حال توسعه است. کد ChatLLaMA تحت مجوز GPLv3 است.

این پروژه از استفاده از مدل‌های مبتنی بر معماری LLaMA (مدل زبان بزرگ مدل متا AI) پیشنهاد شده توسط متا پشتیبانی می‌کند. مدل کامل LLaMA 65 میلیارد پارامتر را پوشش می دهد، اما برای ChatLLaMA توصیه می شود از انواع با 7 و 13 میلیارد پارامتر یا GPTJ (6 میلیارد)، GPTNeoX (1.3 میلیارد)، 20BOPT (13 میلیارد)، BLOOM (7.1 میلیارد) استفاده شود. و گالاکتیکا (6.7 میلیارد) مدل). در ابتدا، مدل‌های LLaMA فقط در صورت درخواست خاص در اختیار محققان قرار می‌گیرد، اما از آنجایی که از تورنت‌ها برای ارائه داده‌ها استفاده می‌شود، علاقه‌مندان اسکریپتی تهیه کرده‌اند که به هر کسی اجازه می‌دهد مدل را دانلود کند.

منبع: opennet.ru

اضافه کردن نظر