FlexGen موتوری برای اجرای ربات‌های هوش مصنوعی ChatGPT در سیستم‌های تک GPU است

تیمی از محققان از دانشگاه استنفورد، دانشگاه کالیفرنیا در برکلی، ETH زوریخ، دانشکده اقتصاد فارغ‌التحصیل، دانشگاه کارنگی ملون، و همچنین Yandex و Meta، کد منبع موتوری را برای اجرای مدل‌های زبانی بزرگ بر روی منابع منتشر کرده‌اند. -سیستم های محدود به عنوان مثال، این موتور توانایی ایجاد عملکردی شبیه ChatGPT و Copilot را با اجرای یک مدل OPT-175B از پیش آموزش دیده با پوشش 175 میلیارد پارامتر بر روی یک رایانه معمولی با کارت گرافیک بازی NVIDIA RTX3090 مجهز به 24 گیگابایت حافظه ویدئویی فراهم می کند. کد به زبان پایتون نوشته شده است، از چارچوب PyTorch استفاده می کند و تحت مجوز آپاچی 2.0 توزیع می شود.

این شامل یک اسکریپت مثال برای ایجاد ربات است که به شما امکان می دهد یکی از مدل های زبان عمومی را دانلود کنید و بلافاصله شروع به برقراری ارتباط کنید (به عنوان مثال، با اجرای دستور "python apps/chatbot.py - model facebook/opt-30b - -% 0" 100 100 0 100 0 "). به عنوان پایه، پیشنهاد می شود از یک مدل زبان بزرگ منتشر شده توسط فیس بوک، آموزش دیده در مجموعه های BookCorpus (10 هزار کتاب)، CC-Stories، Pile (OpenSubtitles، Wikipedia، DM Mathematics، HackerNews و غیره)، Pushshift استفاده کنید. io (بر اساس داده‌های Reddit) و CCNewsV2 (بایگانی اخبار). این مدل تقریباً 180 میلیارد توکن (800 گیگابایت داده) را پوشش می دهد. 33 روز کارکرد کلاستر با 992 پردازنده گرافیکی NVIDIA A100 80 گیگابایتی برای آموزش مدل صرف شد.

هنگام اجرای مدل OPT-175B بر روی سیستمی با واحد پردازش گرافیکی NVIDIA T4 (16 گیگابایت)، موتور FlexGen عملکردی تا 100 برابر سریع‌تر از راه‌حل‌های ارائه شده قبلی نشان می‌دهد و استفاده از مدل‌های زبان بزرگ را مقرون به صرفه‌تر می‌کند و به آن‌ها اجازه می‌دهد تا روی آن‌ها کار کنند. سیستم های بدون شتاب دهنده های اختصاصی در همان زمان، FlexGen می‌تواند برای موازی کردن محاسبات با چندین پردازنده گرافیکی مقیاس‌بندی کند. برای کاهش اندازه مدل، یک طرح فشرده‌سازی پارامتر اختصاصی و مکانیزم ذخیره‌سازی مدل به‌علاوه استفاده می‌شود.

در حال حاضر، FlexGen فقط از مدل‌های زبان OPT پشتیبانی می‌کند، اما در آینده توسعه‌دهندگان قول اضافه کردن پشتیبانی از BLOOM (176 میلیارد پارامتر، پشتیبانی از 46 زبان و 13 زبان برنامه‌نویسی)، CodeGen (قابلیت تولید کد در 22 زبان برنامه‌نویسی) و مدل های GLM نمونه ای از گفتگو با یک ربات بر اساس FlexGen و مدل OPT-30B:

انسان: نام بلندترین کوه جهان چیست؟

دستیار: اورست.

انسان: من برای سالگردمان قصد سفر دارم. چه کارهایی می توانیم انجام دهیم؟

دستیار: خوب، تعدادی کار وجود دارد که می توانید برای سالگرد خود انجام دهید. ابتدا می توانید کارت بازی کنید. دوم، شما می توانید برای پیاده روی بروید. سوم، شما می توانید به یک موزه بروید.

منبع: opennet.ru

اضافه کردن نظر