ProHoster > وبلاگ > اداره > آخرین فناوری مایکروسافت در هوش مصنوعی Azure تصاویر را به خوبی افراد توصیف می کند
آخرین فناوری مایکروسافت در هوش مصنوعی Azure تصاویر را به خوبی افراد توصیف می کند
محققان مایکروسافت یک سیستم هوش مصنوعی ایجاد کردهاند که قادر به تولید شرح تصاویر است که در بسیاری از موارد دقیقتر از توصیفهایی است که توسط انسانها انجام میشود. این پیشرفت، نقطه عطفی در تعهد مایکروسافت به فراگیر کردن محصولات و خدماتش و در دسترس قرار دادن همه کاربران بود.
Xuedong Huang گفت: "توضیح تصویر یکی از عملکردهای اصلی بینایی کامپیوتر است که طیف گسترده ای از خدمات را ممکن می کند."ژئودونگ هوانگ)، یک افسر فنی مایکروسافت و مدیر ارشد فناوری Azure AI Cognitive Services در ردموند، واشنگتن.
مدل جدید اکنون از طریق Computer Vision در دسترس مصرف کنندگان است خدمات شناختی لاجوردکه بخشی از هوش مصنوعی Azure است و به توسعه دهندگان اجازه می دهد تا از این ویژگی برای بهبود در دسترس بودن خدمات خود استفاده کنند. همچنین در برنامه Seeing AI گنجانده شده است و اواخر امسال در Microsoft Word و Outlook برای Windows و Mac و همچنین PowerPoint برای Windows، Mac و بر روی وب در دسترس خواهد بود.
شرح خودکار به کاربران کمک می کند تا به محتوای مهم هر تصویر دسترسی داشته باشند، خواه عکسی باشد که در نتایج جستجو برگردانده شده باشد یا تصویری برای ارائه.
ثاقب شیخ گفت: «استفاده از زیرنویس هایی که محتوای تصاویر (به اصطلاح متن جایگزین یا جایگزین) را در صفحات وب و اسناد توصیف می کند، به ویژه برای افراد نابینا یا کم بینا مهم است.ثاقب شیخ)، مدیر نرم افزار در گروه پلتفرم هوش مصنوعی مایکروسافت در ردموند.
به عنوان مثال، تیم او از ویژگی بهبود یافته توصیف تصویر در برنامه برای افراد نابینا و کم بینا استفاده می کند. دیدن هوش مصنوعی، که تشخیص می دهد دوربین چه چیزی را می گیرد و در مورد آن می گوید. این برنامه از زیرنویس های تولید شده برای توصیف عکس ها، از جمله در رسانه های اجتماعی، استفاده می کند.
در حالت ایدهآل، همه باید متن جایگزین را به تمام تصاویر موجود در اسناد، وب و شبکههای اجتماعی اضافه کنند، زیرا این کار به افراد نابینا امکان میدهد به محتوا دسترسی داشته باشند و در گفتگو شرکت کنند. اما افسوس که مردم این کار را نمی کنند. با این حال، چند برنامه وجود دارند که از ویژگی توصیف تصویر برای اضافه کردن متن جایگزین در صورت مفقود شدن استفاده می کنند.
لیروان وانگ، مدیر کل تحقیقات آزمایشگاه ردموند مایکروسافت، تیم تحقیقاتی را رهبری کرد که به نتایج انسانی دست یافت و از آنها پیشی گرفت. عکس: دن دلانگ.
شرح اشیاء جدید
لیروان وانگ توضیح داد: "توصیف تصاویر یکی از وظایف اصلی بینایی کامپیوتری است که نیازمند یک سیستم هوش مصنوعی برای درک و توصیف محتوا یا عمل اصلی ارائه شده در تصویر است."لیجوان وانگ)، مدیر کل تحقیقات آزمایشگاه ردموند مایکروسافت.
او گفت: "شما باید بفهمید که چه اتفاقی در حال رخ دادن است، روابط بین اشیا و اعمال را بفهمید، و سپس همه آن را در یک جمله به زبانی قابل خواندن برای انسان خلاصه و توصیف کنید."
وانگ رهبری تیم تحقیقاتی را بر عهده داشت که در معیارسنجی nocaps (نوشتن اشیاء بدیع در مقیاس، توصیف در مقیاس بزرگ از اشیاء جدید) به نتیجه ای قابل مقایسه با یک انسان دست یافت و از آن پیشی گرفت. این آزمایش به شما امکان میدهد ارزیابی کنید که سیستمهای هوش مصنوعی تا چه حد توصیفات اشیاء به تصویر کشیدهشده را تولید میکنند که در مجموعه دادهای که مدل بر روی آن آموزش داده شده، گنجانده نشده است.
به طور معمول، سیستمهای توصیف تصویر بر روی مجموعههای دادهای که حاوی تصاویر همراه با توصیف متنی این تصاویر هستند، یعنی روی مجموعههایی از تصاویر امضا شده آموزش داده میشوند.
وانگ میگوید: «تست nocaps نشان میدهد که سیستم تا چه اندازه میتواند اشیاء جدیدی را که در دادههای آموزشی یافت نمیشوند، توصیف کند.
برای حل این مشکل، تیم مایکروسافت یک مدل هوش مصنوعی بزرگ را بر روی یک مجموعه داده بزرگ حاوی تصاویر برچسب گذاری شده با کلمه، که هر کدام با یک شی خاص در تصویر مرتبط است، از قبل آموزش دادند.
مجموعههای تصویری با برچسبهای کلمه بهجای شرح کامل، کارآمدتر هستند و به تیم وانگ اجازه میدهند دادههای زیادی را به مدل خود وارد کنند. این رویکرد به مدل چیزی داد که تیم آن را واژگان بصری مینامد.
همانطور که هوانگ توضیح داد، رویکرد پیشآموزشی با استفاده از واژگان بصری مشابه آمادهسازی کودکان برای خواندن است: ابتدا از یک کتاب تصویری استفاده میشود که در آن کلمات فردی با تصاویر مرتبط میشوند، به عنوان مثال، زیر عکس یک سیب «سیب» نوشته شده است. و زیر عکس یک گربه کلمه "گربه" وجود دارد.
این پیشآموزش با واژگان بصری، در اصل، آموزش اولیه مورد نیاز برای آموزش سیستم است. به این ترتیب ما سعی می کنیم نوعی حافظه حرکتی را توسعه دهیم.
سپس مدل از پیش آموزشدیده شده با مجموعه دادهای شامل تصاویر برچسبگذاری شده پالایش میشود. در این مرحله از آموزش، مدل جملات را یاد می گیرد. اگر تصویری حاوی اشیاء جدید ظاهر شود، سیستم هوش مصنوعی از فرهنگ لغت بصری برای ایجاد توضیحات دقیق استفاده می کند.
وانگ میگوید: «برای کار با اشیاء جدید در طول آزمایش، سیستم آنچه را که در طول آموزش و در طی اصلاحات بعدی آموخته است، یکپارچه میکند.
Согласно результам پژوهشهنگامی که در تستهای nocaps ارزیابی شد، سیستم هوش مصنوعی توصیفات معنیدار و دقیقتری نسبت به انسانها برای تصاویر مشابه ارائه کرد.
انتقال سریعتر به محیط کار
از جمله، سیستم توصیف تصویر جدید دو برابر بهتر از مدل مورد استفاده در محصولات و خدمات مایکروسافت از سال 2015 در مقایسه با سایر معیارهای صنعتی است.
با توجه به مزایایی که همه کاربران محصولات و خدمات مایکروسافت از این بهبود دریافت خواهند کرد، هوانگ به ادغام مدل جدید در محیط کاری Azure سرعت بخشید.
او گفت: «ما این فناوری هوش مصنوعی مخرب را به Azure به عنوان یک پلتفرم برای خدمت به طیف گستردهتری از مشتریان میبریم. "و این فقط یک پیشرفت در تحقیقات نیست. مدت زمانی که طول کشید تا این پیشرفت در محیط تولید Azure گنجانده شود نیز یک پیشرفت بود.
هوانگ اضافه کرد که دستیابی به نتایجی شبیه انسان، روندی را که قبلاً در سیستمهای هوش شناختی مایکروسافت ایجاد شده است، ادامه میدهد.
طی پنج سال گذشته، ما در پنج حوزه اصلی به نتایجی شبیه انسان دست یافتهایم: در تشخیص گفتار، در ترجمه ماشینی، در پاسخ به سؤالات، در خواندن ماشینی و درک متن، و در سال 2020، با وجود COVID-19، در توصیف تصویر. خوان گفت.