Microsoft-un Azure AI-a gələn ən son texnologiyası insanları olduğu kimi şəkilləri də təsvir edir


“Microsoft” tədqiqatçıları bir çox hallarda insan təsvirlərindən daha dəqiq olan şəkil yazıları yarada bilən süni intellekt sistemi yaradıblar. Bu irəliləyiş Microsoft-un məhsul və xidmətlərini bütün istifadəçilər üçün inklüziv və əlçatan etmək öhdəliyində mühüm mərhələni qeyd edir.

Xuedong Huang ("Şəklin təsviri geniş spektrli xidmətlərə imkan verən kompüter görməsinin əsas funksiyalarından biridir" dedi.Xuedong Huang), Microsoft texniki işçisi və Redmond, Vaşinqtonda Azure AI Cognitive Services şirkətinin baş texnologiya direktoru.

Yeni model indi Computer Vision vasitəsilə istehlakçılara təqdim olunur Azure Bilişsel xidmətlər, Azure AI-nin bir hissəsidir və tərtibatçılara xidmətlərinin əlçatanlığını yaxşılaşdırmaq üçün bu imkandan istifadə etməyə imkan verir. O, həmçinin Seeing AI proqramına daxildir və bu ilin sonunda Windows və Mac üçün Microsoft Word və Outlook, həmçinin Windows, Mac və internet üçün PowerPoint proqramlarında istifadəyə veriləcək.

Avtomatik təsvir istifadəçilərə istənilən şəklin vacib məzmununa daxil olmaqda kömək edir, istər axtarış nəticəsində qaytarılan şəkil, istərsə də təqdimat üçün illüstrasiya.

"Veb səhifələrində və sənədlərdə şəkillərin məzmununu (alternativ və ya alternativ mətn adlanır) təsvir edən başlıqların istifadəsi kor və ya zəif görmə qabiliyyətinə malik insanlar üçün xüsusilə vacibdir" dedi Saqib Şeyx (Saqib Şeyx), Microsoft-un Redmonddakı AI Platforms qrupunda proqram meneceri.

Məsələn, onun komandası kor və görmə qabiliyyəti zəif olan insanlar üçün tətbiqdə təkmilləşdirilmiş təsvir təsviri funksiyasından istifadə edir AI-ni görmək, kameranın nə çəkdiyini tanıyan və bu barədə danışan. Tətbiq sosial şəbəkələr də daxil olmaqla, fotoşəkilləri təsvir etmək üçün yaradılan başlıqlardan istifadə edir.

“İdeal olaraq, hər kəs sənədlərdəki, onlayn və sosial mediadakı bütün şəkillərə alternativ mətn əlavə etməlidir, çünki bu, kor insanlara məzmuna daxil olmaq və söhbətdə iştirak etmək imkanı verir. Amma təəssüf ki, insanlar bunu etmirlər”, - Şeyx deyir. "Lakin, heç biri mövcud olmadıqda alternativ mətn əlavə etmək üçün təsvirin təsviri xüsusiyyətindən istifadə edən bir neçə proqram var."
  
Microsoft-un Azure AI-a gələn ən son texnologiyası insanları olduğu kimi şəkilləri də təsvir edir

Microsoft-un Redmond laboratoriyasının baş tədqiqat meneceri Lijuan Wang, insan kimi və daha yaxşı nəticələr əldə edən tədqiqat qrupuna rəhbərlik etdi. Foto: Dan DeLong.

Yeni obyektlərin təsviri

Lijuan Wang izah etdi: "Şəkil təsviri kompüter görməsinin əsas vəzifələrindən biridir və bu, təsvirdə əks olunan əsas məzmunu və ya hərəkəti başa düşmək və təsvir etmək üçün süni intellekt sistemini tələb edir" (Lijuan Wang), Microsoft-un Redmond laboratoriyasında baş tədqiqat meneceri.

“Siz nə baş verdiyini anlamalı, obyektlər və hərəkətlər arasında hansı əlaqələrin olduğunu anlamalı və sonra bütün bunları insan üçün başa düşülən dildə bir cümlə ilə ümumiləşdirib təsvir etməlisiniz” dedi.

Wang, müqayisə aparan tədqiqat qrupuna rəhbərlik etdi nocaps (miqyasda yeni obyekt başlığı, yeni obyektlərin geniş miqyaslı təsviri) insanlarla müqayisə edilə bilən nəticələr əldə etdi və onları ötdü. Bu sınaq süni intellekt sistemlərinin modelin öyrədildiyi məlumat dəstinin bir hissəsi olmayan təsvir edilmiş obyektlərin təsvirlərini nə dərəcədə yaxşı yaratdığını qiymətləndirir.

Tipik olaraq, təsvirin təsviri sistemləri bu şəkillərin mətn təsvirləri ilə müşayiət olunan şəkilləri ehtiva edən verilənlər toplusunda, yəni etiketlənmiş şəkillər dəstlərində öyrədilir.

"Nocaps testi sistemin təlim məlumatlarında tapılmayan yeni obyektləri nə qədər yaxşı təsvir edə biləcəyini göstərir" dedi Wang.

Bu problemi həll etmək üçün Microsoft komandası hər biri şəkildəki xüsusi obyektlə əlaqələndirilmiş söz teqləri olan şəkillərdən ibarət geniş verilənlər bazasında böyük süni intellekt modelini əvvəlcədən öyrətdi.

Tam başlıqlar əvəzinə söz teqləri olan şəkillər dəstləri yaratmaq daha səmərəli idi ki, bu da Wang komandasına modellərinə çoxlu məlumat daxil etməyə imkan verdi. Bu yanaşma modelə komandanın vizual lüğət adlandırdığı şey verdi.

Huang izah etdiyi kimi, vizual lüğətin əvvəlcədən öyrədilməsi yanaşması uşaqları oxumağa hazırlamağa bənzəyir: Birincisi, fərdi sözlərin şəkillərlə əlaqələndirildiyi şəkilli kitab istifadə olunur, məsələn, alma şəklinin altında "alma" deyir və bir pişik şəklinin altında "pişik" sözü var.

“Vizual lüğətlə bu ilkin hazırlıq sistemi öyrətmək üçün lazım olan ilkin təhsildir. Beləliklə, biz bir növ motor yaddaşını inkişaf etdirməyə çalışırıq "dedi Huang.

Əvvəlcədən öyrədilmiş model daha sonra başlıqlı şəkilləri ehtiva edən verilənlər bazasından istifadə edərək dəqiqləşdirilir. Təlimin bu mərhələsində model cümlələr qurmağı öyrənir. Yeni obyektlərin olduğu bir şəkil görünsə, AI sistemi dəqiq təsvirlər yaratmaq üçün vizual lüğətdən istifadə edir.

"Sınaq zamanı yeni obyektlərlə məşğul olmaq üçün sistem təlimdən əvvəl və sonrakı inkişaf zamanı öyrəndiklərini birləşdirir" dedi Wang.
Müvafiq nəticə araşdırmaNocaps testlərində qiymətləndirildikdə, AI sistemi insanların eyni şəkillər üçün etdiyindən daha mənalı və dəqiq təsvirlər istehsal etdi.

İş mühitinə sürətli keçid 

Digər şeylər arasında, yeni təsvirin təsviri sistemi başqa bir sənaye meyarına görə 2015-ci ildən bəri Microsoft məhsul və xidmətlərində istifadə olunan modeldən iki dəfə yaxşıdır.

Microsoft məhsul və xidmətlərinin bütün istifadəçilərinin bu təkmilləşdirmədən əldə edəcəyi faydaları nəzərə alaraq, Huang yeni modelin Azure iş masası mühitinə inteqrasiyasını sürətləndirdi.

"Biz bu sıçrayışlı süni intellekt texnologiyasını daha geniş müştərilərə xidmət göstərmək üçün platforma kimi Azure-a aparırıq" dedi. “Və bu, təkcə tədqiqatda deyil, bir irəliləyişdir. Bu sıçrayışı Azure istehsal mühitinə daxil etmək üçün lazım olan vaxt da bir irəliləyiş oldu.”

Huang əlavə etdi ki, insana bənzər nəticələr əldə etmək Microsoft-un idrak intellekt sistemlərində artıq qurulmuş bir tendensiyanı davam etdirir.

“Son beş il ərzində biz beş əsas sahədə insan səviyyəsində nəticələr əldə etdik: nitqin tanınması, maşın tərcüməsi, suallara cavab, maşın oxuması və mətnin anlaşılması və 2020-ci ildə, COVID-19-a baxmayaraq, təsvirin təsviri”, - Juan bildirib.

Mövzu üzrə

Sistemin əvvəllər və indi AI istifadə edərək verdiyi təsvir təsvirlərinin nəticələrini müqayisə edin

Microsoft-un Azure AI-a gələn ən son texnologiyası insanları olduğu kimi şəkilləri də təsvir edir

Getty Images kitabxanasından foto. Əvvəlki təsvir: Kəsmə taxtasında hot-doq bişirən kişinin yaxından görünüşü. Yeni təsvir: Adam çörək bişirir.

Microsoft-un Azure AI-a gələn ən son texnologiyası insanları olduğu kimi şəkilləri də təsvir edir

Getty Images kitabxanasından foto. Əvvəlki təsvir: Gün batanda kişi oturur. Yeni təsvir: Sahildə tonqal.

Microsoft-un Azure AI-a gələn ən son texnologiyası insanları olduğu kimi şəkilləri də təsvir edir

Getty Images kitabxanasından foto. Əvvəlki təsvir: Mavi köynəkli kişi. Yeni təsvir: Cərrahi maskalar taxan bir neçə nəfər.

Microsoft-un Azure AI-a gələn ən son texnologiyası insanları olduğu kimi şəkilləri də təsvir edir

Getty Images kitabxanasından foto. Əvvəlki təsvir: Skeytbordda olan bir adam divara uçur. Yeni təsvir: Beysbol oyunçusu topu tutur.

Mənbə: www.habr.com

Добавить комментарий