يطور مشروع RedPajama مجموعة بيانات مفتوحة لأنظمة الذكاء الاصطناعي

تم تقديم RedPajama، وهو مشروع تعاوني يهدف إلى إنشاء نماذج مفتوحة للتعلم الآلي ومدخلات التدريب المصاحبة التي يمكن استخدامها لإنشاء مساعدين أذكياء يتنافسون مع المنتجات التجارية مثل ChatGPT. من المتوقع أن يؤدي توفر البيانات مفتوحة المصدر ونماذج اللغات الكبيرة إلى تحرير فرق بحث التعلم الآلي المستقلة وتسهيل بناء أنظمة محادثة مخصصة. انضمت إلى المشروع منظمات ومجتمعات مثل Together وOntocord.ai وETH DS3Lab وStanford CRFM وHazy Research ومعهد MILA Québec AI.

وكانت الخطوة الأولى هي نشر مجموعة بيانات RedPajama-Data-1T لنماذج المحادثة التدريبية، والتي تحتوي على 1.2 تريليون رمز مميز. تستنسخ مجموعة RedPajama البيانات المتاحة للعامة والتي يستخدمها فيسبوك لإنشاء نموذج LLaMA الخاص به (بقيمة 1.25 تريليون رمز)، ولكن يتم توفيرها بموجب ترخيص مفتوح وغير مقيد (تم توفير بيانات ونماذج LLaMA فقط للباحثين بناءً على طلب خاص لغير -إستخدام تجاري). يبلغ حجم مجموعة RedPajama-Data-1T القابلة للتنزيل 2.67 تيرابايت وتتضمن معلومات من صفحات الويب المفهرسة للزحف المشترك وأرشيفات ويكيبيديا وكود المصدر من GitHub وكتب الملك العام من مكتبة Gutenberg ومقالات علمية من أرشيف ArXiv ومناقشات من Stack Overflow ومواقع Stack Exchange الأخرى.

من المقرر تشكيل النماذج الجاهزة، التي تم تدريبها على أساس مجموعة بيانات مُعدة وتحسينها باستخدام أمثلة جاهزة للحوارات في شكل تنفيذ التعليمات من مشروعي Alpaca وOpenChatKit، في الأسابيع القليلة المقبلة. تشمل مبادرات نماذج اللغة المماثلة المشاريع مفتوحة المصدر جزئيًا LLaMA وAlpaca وVicuna وKoala، بالإضافة إلى مبادرات مفتوحة المصدر بالكامل Pythia وOpenChatKit وOpen Assistant وDolly.

بالإضافة إلى ذلك، يمكن ملاحظة العديد من المشاريع الجديدة المتعلقة بالتعلم الآلي:

  • MiniGPT-4 - يوسع روبوتات الدردشة التفاعلية التقليدية بإمكانيات تأخذ في الاعتبار المعلومات المرئية، مما يسمح لك بتحليل الصور ومراعاة النص المكتوب بخط اليد عند التفاعل مع النظام (على سبيل المثال، يمكنك السؤال عن نوع الكائن الذي يظهر في الصورة) ، اطلب من الروبوت كتابة قصة بناءً على القصة الموضحة في الصورة، أو بناءً على رسم تخطيطي، اطلب إنشاء موقع ويب). تمت كتابة تطبيق MiniGPT-4 بلغة Python ويتم توزيعه بموجب ترخيص BSD.
  • قام Facebook بنشر أدوات وأدوات للتعلم الذاتي (SSL، التعلم الخاضع للإشراف الذاتي، لا يستخدم التسميات والتعليقات التوضيحية المعدة بواسطة الإنسان أثناء التدريب) نموذج رؤية الكمبيوتر DINOv2، وهو مناسب لحل مشكلات معالجة البيانات المرئية المعممة (تصنيف الصور، واستخراج المعلومات حول الكائنات في الصور، وفهم ما يحدث في الفيديو) والتلاعب على مستوى البكسل (التنبؤ بالعمق، والتجزئة). تم تدريب النموذج على مجموعة من 142 مليون صورة. تمت كتابة التطبيق بلغة Python ويتم توزيعه بموجب ترخيص Creative Commons Attribution-NonCommercial 4.0، مما يسمح بالاستخدام غير التجاري.
  • GPT4All عبارة عن مجموعة أدوات لتشغيل روبوتات الدردشة المستقلة بسرعة على أجهزتك الخاصة (لا يمكنها الوصول إلى الخدمات الخارجية وتستخدم وحدة المعالجة المركزية مع دعم AVX2 للتنفيذ). يدعم الاتصال بنماذج اللغات الكبيرة المعتمدة على GPT-J وLLaMa. الكود مكتوب بلغة بايثون ويتم توزيعه بموجب ترخيص MIT.

المصدر: opennet.ru

إضافة تعليق