הטכנולוגיה העדכנית ביותר של מיקרוסופט ב-Azure AI מתארת ​​תמונות וגם אנשים


חוקרי מיקרוסופט יצרו מערכת בינה מלאכותית המסוגלת לייצר כיתובי תמונה שבמקרים רבים מתבררים כמדויקים יותר מתיאורים שנעשו על ידי בני אדם. פריצת דרך זו סימנה אבן דרך מרכזית במחויבותה של מיקרוסופט להפוך את המוצרים והשירותים שלה לכלול ונגיש לכל המשתמשים.

"תיאור התמונה הוא אחד הפונקציות העיקריות של ראייה ממוחשבת, מה שמאפשר מגוון רחב של שירותים", אמר שואדונג הואנג (קסואדונג הואנג), קצין טכני של מיקרוסופט ו-CTO של Azure AI Cognitive Services ברדמונד, וושינגטון.

הדגם החדש זמין כעת לצרכנים דרך Computer Vision בכתובת שירותים קוגניטיביים בתכלת, שהיא חלק מ-Azure AI, ומאפשרת למפתחים להשתמש בתכונה זו כדי לשפר את זמינות השירותים שלהם. הוא נכלל גם באפליקציית Seeing AI ויהיה זמין בהמשך השנה ב-Microsoft Word ו-Outlook עבור Windows ו-Mac, כמו גם PowerPoint עבור Windows, Mac ובאינטרנט.

תיאור אוטומטי עוזר למשתמשים לגשת לתוכן החשוב של כל תמונה, בין אם זו תמונה שהוחזרה בתוצאות החיפוש או איור למצגת.

"השימוש בכתוביות המתארות את תוכן התמונות (מה שנקרא טקסט חלופי או חלופי) בדפי אינטרנט ובמסמכים חשוב במיוחד עבור אנשים עיוורים או לקויי ראייה", אמר סקיב שייח' (שקיב שייח), מנהל תוכנה בקבוצת AI Platform של מיקרוסופט ברדמונד.

לדוגמה, הצוות שלו משתמש בתכונת תיאור תמונה משופרת באפליקציה עבור אנשים עיוורים ולקויי ראייה. לראות AI, שמזהה את מה שהמצלמה מצלמת ומספרת על כך. האפליקציה משתמשת בכיתובים שנוצרו כדי לתאר תמונות, כולל ברשתות חברתיות.

"באופן אידיאלי, כולם צריכים להוסיף טקסט חלופי לכל התמונות במסמכים, באינטרנט, ברשתות חברתיות, שכן זה מאפשר לעיוורים לגשת לתוכן ולקחת חלק בשיחה. אבל, אבוי, אנשים לא עושים את זה", אומר השייח'. "עם זאת, יש כמה אפליקציות שמשתמשות בתכונת תיאור התמונה כדי להוסיף טקסט חלופי כאשר הוא חסר."
  
הטכנולוגיה העדכנית ביותר של מיקרוסופט ב-Azure AI מתארת ​​תמונות וגם אנשים

לירואן וואנג, מנהל מחקר כללי במעבדת רדמונד של מיקרוסופט, הוביל צוות מחקר שהשיג ועלה על תוצאות אנושיות. צילום: דן דלונג.

תיאור של חפצים חדשים

"תיאור תמונות הוא אחת המשימות העיקריות של ראייה ממוחשבת, שדורשת מערכת בינה מלאכותית כדי להבין ולתאר את התוכן או הפעולה העיקריים המוצגים בתמונה", הסביר לירואן וואנג (ליג'ואן וואנג), מנהל מחקר כללי במעבדת רדמונד של מיקרוסופט.

"אתה צריך להבין מה קורה, להבין מהם היחסים בין אובייקטים ופעולות, ואז לסכם ולתאר את הכל במשפט בשפה הניתנת לקריאה של בני אדם", אמרה.

וואנג הוביל את צוות המחקר, אשר בהשוואה nocaps (כיתוב אובייקט חדש בקנה מידה, תיאור בקנה מידה גדול של אובייקטים חדשים) השיג תוצאה הדומה לתוצאה אנושית, ועלתה עליה. בדיקה זו מאפשרת לך להעריך עד כמה מערכות בינה מלאכותית מייצרות תיאורים של אובייקטים מתוארים שאינם כלולים במערך הנתונים שעליו הוכשר המודל.

בדרך כלל, מערכות תיאור תמונה מאומנות על ערכות נתונים המכילות תמונות המלוות בתיאור טקסטואלי של תמונות אלו, כלומר על סטים של תמונות חתומות.

"מבחן nocaps מראה עד כמה המערכת מסוגלת לתאר אובייקטים חדשים שלא נמצאו בנתוני האימון", אומר וואנג.

כדי לפתור בעיה זו, צוות מיקרוסופט הכשיר מראש מודל AI גדול על מערך נתונים גדול המכיל תמונות מתויגות מילים, שכל אחת מהן קשורה לאובייקט ספציפי בתמונה.

ערכות תמונות עם תגי מילים במקום כיתובים מלאים יעילים יותר ליצירה, מה שמאפשר לצוות של וואנג להזין הרבה נתונים לתוך המודל שלהם. גישה זו העניקה למודל את מה שהצוות מכנה אוצר מילים חזותי.

כפי שהואנג הסביר, הגישה שלפני הלמידה באמצעות אוצר מילים חזותי דומה להכנת ילדים לקריאה: ראשית, נעשה שימוש בספר תמונות שבו מילים בודדות מקושרות לתמונות, למשל, מתחת לתמונה של תפוח כתוב "תפוח". ומתחת לתמונה של חתול נמצאת המילה "חתול".

"האימון המקדים הזה עם אוצר מילים חזותי הוא, בעצם, החינוך הראשוני הדרוש לאימון המערכת. כך אנחנו מנסים לפתח סוג של זיכרון מוטורי", אמר הואנג.

לאחר מכן, המודל שהוכשר מראש משוכלל עם מערך נתונים הכולל תמונות שכותרתו. בשלב זה של האימון, הדוגמנית לומדת ליצור משפטים. אם מופיעה תמונה המכילה אובייקטים חדשים, מערכת הבינה המלאכותית משתמשת במילון החזותי כדי ליצור תיאורים מדויקים.

"כדי לעבוד עם אובייקטים חדשים במהלך הבדיקה, המערכת משלבת את מה שהיא למדה במהלך ההכשרה המוקדמת ובמהלך השכלול הבא", אומר וואנג.
לפי התוצאות מחקר, כאשר הוערכה במבחני nocaps, מערכת הבינה המלאכותית הפיקה תיאורים משמעותיים ומדויקים יותר ממה שבני אדם עשו עבור אותן תמונות.

מעבר מהיר יותר לסביבת העבודה 

בין היתר, מערכת תיאור התמונות החדשה טובה פי שניים מהדגם המשמש במוצרים ובשירותים של מיקרוסופט מאז 2015, בהשוואה לרף אחר בתעשייה.

בהתחשב ביתרונות שכל משתמשי המוצרים והשירותים של מיקרוסופט יקבלו מהשיפור הזה, הואנג האיץ את השילוב של המודל החדש בסביבת העבודה של Azure.

"אנחנו לוקחים את טכנולוגיית הבינה המלאכותית המשבשת הזו ל-Azure כפלטפורמה לשרת מגוון רחב יותר של לקוחות", אמר. "וזו לא רק פריצת דרך במחקר. גם הזמן שלקח לשלב את פריצת הדרך הזו בסביבת הייצור של Azure היה פריצת דרך".

הואנג הוסיף כי השגת תוצאות דמויות אדם ממשיכה מגמה שכבר הוקמה במערכות האינטליגנציה הקוגניטיבית של מיקרוסופט.

"בחמש השנים האחרונות, השגנו תוצאות דמויות אנושיות בחמישה תחומים עיקריים: בזיהוי דיבור, בתרגום מכונה, במענה לשאלות, בקריאת מכונה והבנת טקסט, ובשנת 2020, למרות COVID-19, בתיאור תמונה. ״ אמר חואן.

לפי נושא

השווה את התוצאות של תיאור התמונות שהמערכת נתנה בעבר ועכשיו באמצעות AI

הטכנולוגיה העדכנית ביותר של מיקרוסופט ב-Azure AI מתארת ​​תמונות וגם אנשים

התמונה באדיבות Getty Images. תיאור קודם: תקריב של גבר מכין נקניקייה על קרש חיתוך. תיאור חדש: אדם מכין לחם.

הטכנולוגיה העדכנית ביותר של מיקרוסופט ב-Azure AI מתארת ​​תמונות וגם אנשים

התמונה באדיבות Getty Images. תיאור קודם: אדם יושב בשקיעה. תיאור חדש: מדורה על החוף.

הטכנולוגיה העדכנית ביותר של מיקרוסופט ב-Azure AI מתארת ​​תמונות וגם אנשים

התמונה באדיבות Getty Images. תיאור קודם: גבר בחולצה כחולה. תיאור חדש: מספר אנשים לובשים מסכות כירורגיות.

הטכנולוגיה העדכנית ביותר של מיקרוסופט ב-Azure AI מתארת ​​תמונות וגם אנשים

התמונה באדיבות Getty Images. תיאור קודם: אדם על סקייטבורד עף על הקיר. תיאור חדש: שחקן בייסבול תופס כדור.

מקור: www.habr.com

הוספת תגובה