تنفيذ نظام التعلم الآلي لتركيب الصور بناء على وصف النص

تم نشر تطبيق مفتوح لنظام التعلم الآلي DALL-E 2، الذي اقترحته OpenAI، ويسمح لك بتجميع صور ولوحات واقعية بناءً على وصف نصي باللغة الطبيعية، بالإضافة إلى تطبيق الأوامر باللغة الطبيعية لتحرير الصور ( على سبيل المثال، إضافة أو حذف أو نقل الكائنات في الصورة). لم يتم نشر نماذج DALL-E 2 الأصلية الخاصة بشركة OpenAI، ولكن تتوفر ورقة بحثية توضح تفاصيل الطريقة. بناءً على الوصف الحالي، قام باحثون مستقلون بإعداد تطبيق بديل مكتوب بلغة بايثون، باستخدام إطار عمل Pytorch وتم توزيعه بموجب ترخيص MIT.

تنفيذ نظام التعلم الآلي لتركيب الصور بناء على وصف النصتنفيذ نظام التعلم الآلي لتركيب الصور بناء على وصف النص

بالمقارنة مع التنفيذ المنشور مسبقًا للجيل الأول من DALL-E، يوفر الإصدار الجديد مطابقة أكثر دقة للصورة مع الوصف، ويسمح بمزيد من الواقعية ويجعل من الممكن إنشاء صور بدقة أعلى. يتطلب النظام موارد كبيرة لتدريب النموذج؛ على سبيل المثال، يتطلب تدريب الإصدار الأصلي من DALL-E 2 ما بين 100 إلى 200 ألف ساعة من الحوسبة على وحدة معالجة الرسومات، أي. حوالي 2-4 أسابيع من العمليات الحسابية باستخدام 256 وحدة معالجة رسومات NVIDIA Tesla V100.

تنفيذ نظام التعلم الآلي لتركيب الصور بناء على وصف النص

بدأ نفس المؤلف أيضًا في تطوير نسخة موسعة - DALLE2 Video، تهدف إلى تجميع الفيديو من وصف النص. بشكل منفصل، يمكننا أن نلاحظ مشروع ru-dale الذي طوره Sberbank، مع التنفيذ المفتوح للجيل الأول من DALL-E، الذي تم تكييفه للتعرف على الأوصاف باللغة الروسية.

المصدر: opennet.ru

إضافة تعليق