آخرین فناوری مایکروسافت در هوش مصنوعی Azure تصاویر را به خوبی افراد توصیف می کند


محققان مایکروسافت یک سیستم هوش مصنوعی ایجاد کرده‌اند که قادر به تولید شرح تصاویر است که در بسیاری از موارد دقیق‌تر از توصیف‌هایی است که توسط انسان‌ها انجام می‌شود. این پیشرفت، نقطه عطفی در تعهد مایکروسافت به فراگیر کردن محصولات و خدماتش و در دسترس قرار دادن همه کاربران بود.

Xuedong Huang گفت: "توضیح تصویر یکی از عملکردهای اصلی بینایی کامپیوتر است که طیف گسترده ای از خدمات را ممکن می کند."ژئودونگ هوانگ)، یک افسر فنی مایکروسافت و مدیر ارشد فناوری Azure AI Cognitive Services در ردموند، واشنگتن.

مدل جدید اکنون از طریق Computer Vision در دسترس مصرف کنندگان است خدمات شناختی لاجوردکه بخشی از هوش مصنوعی Azure است و به توسعه دهندگان اجازه می دهد تا از این ویژگی برای بهبود در دسترس بودن خدمات خود استفاده کنند. همچنین در برنامه Seeing AI گنجانده شده است و اواخر امسال در Microsoft Word و Outlook برای Windows و Mac و همچنین PowerPoint برای Windows، Mac و بر روی وب در دسترس خواهد بود.

شرح خودکار به کاربران کمک می کند تا به محتوای مهم هر تصویر دسترسی داشته باشند، خواه عکسی باشد که در نتایج جستجو برگردانده شده باشد یا تصویری برای ارائه.

ثاقب شیخ گفت: «استفاده از زیرنویس هایی که محتوای تصاویر (به اصطلاح متن جایگزین یا جایگزین) را در صفحات وب و اسناد توصیف می کند، به ویژه برای افراد نابینا یا کم بینا مهم است.ثاقب شیخ)، مدیر نرم افزار در گروه پلتفرم هوش مصنوعی مایکروسافت در ردموند.

به عنوان مثال، تیم او از ویژگی بهبود یافته توصیف تصویر در برنامه برای افراد نابینا و کم بینا استفاده می کند. دیدن هوش مصنوعی، که تشخیص می دهد دوربین چه چیزی را می گیرد و در مورد آن می گوید. این برنامه از زیرنویس های تولید شده برای توصیف عکس ها، از جمله در رسانه های اجتماعی، استفاده می کند.

در حالت ایده‌آل، همه باید متن جایگزین را به تمام تصاویر موجود در اسناد، وب و شبکه‌های اجتماعی اضافه کنند، زیرا این کار به افراد نابینا امکان می‌دهد به محتوا دسترسی داشته باشند و در گفتگو شرکت کنند. اما افسوس که مردم این کار را نمی کنند. با این حال، چند برنامه وجود دارند که از ویژگی توصیف تصویر برای اضافه کردن متن جایگزین در صورت مفقود شدن استفاده می کنند.
  
آخرین فناوری مایکروسافت در هوش مصنوعی Azure تصاویر را به خوبی افراد توصیف می کند

لیروان وانگ، مدیر کل تحقیقات آزمایشگاه ردموند مایکروسافت، تیم تحقیقاتی را رهبری کرد که به نتایج انسانی دست یافت و از آنها پیشی گرفت. عکس: دن دلانگ.

شرح اشیاء جدید

لیروان وانگ توضیح داد: "توصیف تصاویر یکی از وظایف اصلی بینایی کامپیوتری است که نیازمند یک سیستم هوش مصنوعی برای درک و توصیف محتوا یا عمل اصلی ارائه شده در تصویر است."لیجوان وانگ)، مدیر کل تحقیقات آزمایشگاه ردموند مایکروسافت.

او گفت: "شما باید بفهمید که چه اتفاقی در حال رخ دادن است، روابط بین اشیا و اعمال را بفهمید، و سپس همه آن را در یک جمله به زبانی قابل خواندن برای انسان خلاصه و توصیف کنید."

وانگ رهبری تیم تحقیقاتی را بر عهده داشت که در معیارسنجی nocaps (نوشتن اشیاء بدیع در مقیاس، توصیف در مقیاس بزرگ از اشیاء جدید) به نتیجه ای قابل مقایسه با یک انسان دست یافت و از آن پیشی گرفت. این آزمایش به شما امکان می‌دهد ارزیابی کنید که سیستم‌های هوش مصنوعی تا چه حد توصیفات اشیاء به تصویر کشیده‌شده را تولید می‌کنند که در مجموعه داده‌ای که مدل بر روی آن آموزش داده شده، گنجانده نشده است.

به طور معمول، سیستم‌های توصیف تصویر بر روی مجموعه‌های داده‌ای که حاوی تصاویر همراه با توصیف متنی این تصاویر هستند، یعنی روی مجموعه‌هایی از تصاویر امضا شده آموزش داده می‌شوند.

وانگ می‌گوید: «تست nocaps نشان می‌دهد که سیستم تا چه اندازه می‌تواند اشیاء جدیدی را که در داده‌های آموزشی یافت نمی‌شوند، توصیف کند.

برای حل این مشکل، تیم مایکروسافت یک مدل هوش مصنوعی بزرگ را بر روی یک مجموعه داده بزرگ حاوی تصاویر برچسب گذاری شده با کلمه، که هر کدام با یک شی خاص در تصویر مرتبط است، از قبل آموزش دادند.

مجموعه‌های تصویری با برچسب‌های کلمه به‌جای شرح کامل، کارآمدتر هستند و به تیم وانگ اجازه می‌دهند داده‌های زیادی را به مدل خود وارد کنند. این رویکرد به مدل چیزی داد که تیم آن را واژگان بصری می‌نامد.

همانطور که هوانگ توضیح داد، رویکرد پیش‌آموزشی با استفاده از واژگان بصری مشابه آماده‌سازی کودکان برای خواندن است: ابتدا از یک کتاب تصویری استفاده می‌شود که در آن کلمات فردی با تصاویر مرتبط می‌شوند، به عنوان مثال، زیر عکس یک سیب «سیب» نوشته شده است. و زیر عکس یک گربه کلمه "گربه" وجود دارد.

این پیش‌آموزش با واژگان بصری، در اصل، آموزش اولیه مورد نیاز برای آموزش سیستم است. به این ترتیب ما سعی می کنیم نوعی حافظه حرکتی را توسعه دهیم.

سپس مدل از پیش آموزش‌دیده شده با مجموعه داده‌ای شامل تصاویر برچسب‌گذاری شده پالایش می‌شود. در این مرحله از آموزش، مدل جملات را یاد می گیرد. اگر تصویری حاوی اشیاء جدید ظاهر شود، سیستم هوش مصنوعی از فرهنگ لغت بصری برای ایجاد توضیحات دقیق استفاده می کند.

وانگ می‌گوید: «برای کار با اشیاء جدید در طول آزمایش، سیستم آنچه را که در طول آموزش و در طی اصلاحات بعدی آموخته است، یکپارچه می‌کند.
Согласно результам پژوهشهنگامی که در تست‌های nocaps ارزیابی شد، سیستم هوش مصنوعی توصیفات معنی‌دار و دقیق‌تری نسبت به انسان‌ها برای تصاویر مشابه ارائه کرد.

انتقال سریعتر به محیط کار 

از جمله، سیستم توصیف تصویر جدید دو برابر بهتر از مدل مورد استفاده در محصولات و خدمات مایکروسافت از سال 2015 در مقایسه با سایر معیارهای صنعتی است.

با توجه به مزایایی که همه کاربران محصولات و خدمات مایکروسافت از این بهبود دریافت خواهند کرد، هوانگ به ادغام مدل جدید در محیط کاری Azure سرعت بخشید.

او گفت: «ما این فناوری هوش مصنوعی مخرب را به Azure به عنوان یک پلتفرم برای خدمت به طیف گسترده‌تری از مشتریان می‌بریم. "و این فقط یک پیشرفت در تحقیقات نیست. مدت زمانی که طول کشید تا این پیشرفت در محیط تولید Azure گنجانده شود نیز یک پیشرفت بود.

هوانگ اضافه کرد که دستیابی به نتایجی شبیه انسان، روندی را که قبلاً در سیستم‌های هوش شناختی مایکروسافت ایجاد شده است، ادامه می‌دهد.

طی پنج سال گذشته، ما در پنج حوزه اصلی به نتایجی شبیه انسان دست یافته‌ایم: در تشخیص گفتار، در ترجمه ماشینی، در پاسخ به سؤالات، در خواندن ماشینی و درک متن، و در سال 2020، با وجود COVID-19، در توصیف تصویر. خوان گفت.

با موضوع

نتایج توصیف تصاویری را که سیستم قبلا و اکنون با استفاده از هوش مصنوعی ارائه کرده است، مقایسه کنید

آخرین فناوری مایکروسافت در هوش مصنوعی Azure تصاویر را به خوبی افراد توصیف می کند

عکس از Getty Images. توضیحات قبلی: نمای نزدیک مردی که یک هات داگ را روی تخته برش آماده می کند. توضیحات جدید: مردی نان درست می کند.

آخرین فناوری مایکروسافت در هوش مصنوعی Azure تصاویر را به خوبی افراد توصیف می کند

عکس از Getty Images. توضیحات قبلی: مردی در غروب آفتاب نشسته است. توضیحات جدید: آتش سوزی در ساحل.

آخرین فناوری مایکروسافت در هوش مصنوعی Azure تصاویر را به خوبی افراد توصیف می کند

عکس از Getty Images. توضیحات قبلی: مردی با پیراهن آبی. توضیحات جدید: چند نفر با ماسک جراحی.

آخرین فناوری مایکروسافت در هوش مصنوعی Azure تصاویر را به خوبی افراد توصیف می کند

عکس از Getty Images. توضیحات قبلی: مردی سوار بر اسکیت بورد از دیوار بالا می‌رود. توضیحات جدید: یک بازیکن بیسبال توپ را می گیرد.

منبع: www.habr.com

اضافه کردن نظر