Stability AI פרסמה את המהדורה השנייה של מערכת למידת המכונה Stable Diffusion, המסוגלת לסנתז ולשנות תמונות על סמך דפוס מוצע או תיאור טקסט בשפה טבעית. קוד הכלים לאימון רשתות עצביות ויצירת תמונות נכתב ב-Python באמצעות מסגרת PyTorch ומפורסם ברישיון MIT. דגמים שעברו הכשרה פתוחים תחת רישיון Creative ML OpenRAIL-M המתיר, המאפשר שימוש מסחרי. בנוסף, מחולל תמונות מקוון דמו זמין.
שיפורים מרכזיים במהדורה החדשה של Stable Diffusion:
- נוצר מודל חדש לסינתזה של תמונות המבוסס על תיאור טקסט - SD2.0-v - התומך ביצירת תמונות ברזולוציה של 768×768. הדגם החדש הוכשר באמצעות אוסף LAION-5B של 5.85 מיליארד תמונות עם תיאורי טקסט. המודל משתמש באותה סט פרמטרים כמו דגם Stable Diffusion 1.5, אך נבדל במעבר לשימוש במקודד OpenCLIP-ViT/H שונה מהותית, מה שאיפשר לשפר משמעותית את איכות התמונות שהתקבלו.

- הוכנה גרסה פשוטה של SD2.0-base, שהוכשרה על תמונות 256×256 באמצעות מודל חיזוי הרעש הקלאסי ותומכת ביצירת תמונות ברזולוציה של 512×512.

- האפשרות להשתמש בטכנולוגיה של דגימת העל (Super Resolution) ניתנת להגדלת הרזולוציה של התמונה המקורית מבלי להפחית את האיכות, תוך שימוש באלגוריתמים לקנה מידה מרחבי ושחזור פרטים. דגם עיבוד התמונה המסופק (SD20-upscaler) תומך בשינוי קנה מידה פי 2048, שיכול ליצור תמונות ברזולוציה של 2048×XNUMX.

- מוצע מודל SD2.0-depth2img, שלוקח בחשבון את העומק והסידור המרחבי של אובייקטים. מערכת MiDaS משמשת להערכת עומק מונוקולרית. המודל מאפשר לך לסנתז תמונות חדשות באמצעות תמונה אחרת כתבנית, שיכולה להיות שונה בתכלית מהמקור, אך לשמור על הקומפוזיציה והעומק הכוללים. לדוגמה, אתה יכול להשתמש בפוזה של אדם בתמונה כדי ליצור דמות אחרת באותה תנוחה.



- המודל לשינוי תמונות עודכן - SD 2.0-inpainting, המאפשר להחליף ולשנות חלקים מתמונה באמצעות הנחיות טקסט.

- הדגמים עברו אופטימיזציה לשימוש במערכות קונבנציונליות עם GPU יחיד.

מקור: OpenNet.ru







