Microsoft корпорациясының Azure AI жүйесіндегі соңғы технологиясы суреттерді де, адамдарды да сипаттайды


Майкрософт зерттеушілері көптеген жағдайларда адамдар жасаған сипаттамаларға қарағанда дәлірек болатын суреттерге арналған жазбаларды жасауға қабілетті жасанды интеллект жүйесін жасады. Бұл серпіліс Microsoft корпорациясының өз өнімдері мен қызметтерін барлық пайдаланушылар үшін инклюзивті және қолжетімді ету міндеттемесіндегі маңызды кезең болды.

«Суретті сипаттау - бұл кең ауқымды қызметтерді мүмкін ететін компьютерлік көрудің негізгі функцияларының бірі», - деді Сюэдун Хуан (Сюэдун Хуан), Microsoft техникалық қызметкері және Redmond, Вашингтондағы Azure AI когнитивтік қызметтерінің техникалық директоры.

Жаңа модель енді тұтынушыларға Computer Vision арқылы қол жетімді Azure когнитивтік қызметтері, бұл Azure AI бөлігі болып табылады және әзірлеушілерге өз қызметтерінің қолжетімділігін жақсарту үшін осы мүмкіндікті пайдалануға мүмкіндік береді. Ол сондай-ақ Seeing AI қолданбасына енгізілген және осы жылдың соңында Windows және Mac жүйесіне арналған Microsoft Word және Outlook, сондай-ақ Windows, Mac және интернетке арналған PowerPoint бағдарламаларында қолжетімді болады.

Автоматты сипаттама пайдаланушыларға іздеу нәтижелерінде қайтарылған фотосурет немесе презентацияға арналған иллюстрация болсын, кез келген кескіннің маңызды мазмұнына қол жеткізуге көмектеседі.

«Веб-беттердегі және құжаттардағы кескіндердің мазмұнын (балама немесе балама мәтін деп аталатын) сипаттайтын жазуларды пайдалану әсіресе зағип немесе нашар көретін адамдар үшін маңызды», - деді Сақиб Шейх (Сақиб Шайх), Microsoft корпорациясының Редмондтағы AI платформалар тобында бағдарламалық құрал менеджері.

Мысалы, оның командасы зағип және нашар көретін адамдарға арналған қолданбада жақсартылған кескінді сипаттау мүмкіндігін пайдалануда. AI көру, ол камера не түсіріп жатқанын таниды және ол туралы айтады. Қолданба фотосуреттерді, соның ішінде әлеуметтік медианы сипаттау үшін жасалған субтитрлерді пайдаланады.

«Дұрыс кез келген адам құжаттардағы, интернеттегі, әлеуметтік желілердегі барлық кескіндерге балама мәтін қосуы керек, өйткені бұл зағип адамдарға мазмұнға қол жеткізуге және әңгімеге қатысуға мүмкіндік береді. Бірақ, өкінішке орай, адамдар мұны істемейді», - дейді шейх. «Дегенмен, ол жоқ кезде балама мәтін қосу үшін суретті сипаттау мүмкіндігін пайдаланатын бірнеше қолданбалар бар».
  
Microsoft корпорациясының Azure AI жүйесіндегі соңғы технологиясы суреттерді де, адамдарды да сипаттайды

Лируан Ванг, Microsoft корпорациясының Redmond зертханасының зерттеу бөлімінің бас менеджері адам нәтижелеріне қол жеткізген және одан асып түскен зерттеу тобын басқарды. Фото: Дэн ДеЛонг.

Жаңа объектілерді сипаттау

«Суреттерді сипаттау компьютерлік көрудің негізгі міндеттерінің бірі болып табылады, ол суретте ұсынылған негізгі мазмұнды немесе әрекетті түсіну және сипаттау үшін жасанды интеллект жүйесін талап етеді», - деп түсіндірді Лируан Ванг (Лижуан Ван), Microsoft компаниясының Редмонд зертханасының зерттеу жөніндегі бас менеджері.

«Сіз не болып жатқанын түсінуіңіз керек, заттар мен әрекеттер арасындағы қарым-қатынастарды анықтауыңыз керек, содан кейін барлығын адам оқи алатын тілде сөйлемде жинақтап, сипаттауыңыз керек», - деді ол.

Ван зерттеу тобын басқарды, салыстыру бойынша nocaps (масштаб бойынша жаңа объектінің тақырыбы, жаңа объектілердің ауқымды сипаттамасы) адаммен салыстырылатын нәтижеге қол жеткізді және одан асып түсті. Бұл тестілеу AI жүйелері модель оқытылатын деректер жиынына қосылмаған бейнеленген нысандардың сипаттамаларын қаншалықты жақсы жасайтынын бағалауға мүмкіндік береді.

Әдетте, кескінді сипаттау жүйелері осы кескіндердің мәтіндік сипаттамасымен сүйемелденетін кескіндерді қамтитын деректер жиынында, яғни қол қойылған кескіндер жиынында оқытылады.

«Nocaps тесті жүйенің оқу деректерінде табылмаған жаңа нысандарды қаншалықты жақсы сипаттай алатынын көрсетеді», - дейді Ванг.

Бұл мәселені шешу үшін Microsoft командасы әрқайсысы кескіндегі белгілі бір нысанмен байланыстырылған сөздік тегтелген кескіндерді қамтитын үлкен деректер жиынында үлкен AI үлгісін алдын ала оқытты.

Толық субтитрлердің орнына сөз тегтері бар кескін жиынтықтарын жасау тиімдірек, бұл Ванг командасына өз үлгісіне көптеген деректерді беруге мүмкіндік береді. Бұл тәсіл модельге топ көрнекі сөздік деп атайтын нәрсені берді.

Хуан түсіндіргендей, көрнекі лексиканы пайдалана отырып, оқуға дейінгі әдіс балаларды оқуға дайындауға ұқсас: біріншіден, суретті кітап пайдаланылады, онда жеке сөздер суреттермен байланысты, мысалы, алма фотосының астында «алма» деп жазылады. ал мысық фотосының астында «мысық» сөзі бар.

«Көрнекі лексика бар бұл алдын ала оқыту, шын мәнінде, жүйені оқыту үшін қажет бастапқы білім. Осылайша біз моторлық жадының бір түрін дамытуға тырысамыз», - деді Хуан.

Алдын ала дайындалған модель содан кейін таңбаланған кескіндерді қамтитын деректер жиынтығымен нақтыланады. Жаттығудың бұл кезеңінде модель сөйлем құрауға үйренеді. Жаңа нысандарды қамтитын кескін пайда болса, AI жүйесі нақты сипаттамалар жасау үшін визуалды сөздікті пайдаланады.

«Тестілеу кезінде жаңа нысандармен жұмыс істеу үшін жүйе дайындыққа дейінгі және кейінгі нақтылау кезінде үйренгендерін біріктіреді», - дейді Ванг.
Согласно нәтиже зерттеу, nocaps сынақтарында бағаланған кезде, AI жүйесі адамдар бірдей суреттер үшін жасағаннан гөрі мағыналы және дәл сипаттамалар жасады.

Жұмыс ортасына тезірек көшу 

Басқа нәрселермен қатар, жаңа кескінді сипаттау жүйесі басқа салалық эталонмен салыстырғанда 2015 жылдан бері Microsoft өнімдері мен қызметтерінде қолданылған үлгіден екі есе жақсы.

Microsoft өнімдері мен қызметтерінің барлық пайдаланушылары осы жақсартудан алатын артықшылықтарды ескере отырып, Хуан жаңа үлгіні Azure жұмыс ортасына біріктіруді жылдамдатты.

«Біз бұл бұзылатын AI технологиясын Azure-ге тұтынушылардың кең ауқымына қызмет көрсететін платформа ретінде алып жатырмыз», - деді ол. «Және бұл тек зерттеудегі серпіліс емес. Бұл серпінді Azure өндіріс ортасына енгізуге кеткен уақыт та серпіліс болды».

Хуан адамға ұқсас нәтижелерге қол жеткізу Microsoft корпорациясының когнитивті интеллект жүйелерінде қалыптасқан үрдісті жалғастыратынын қосты.

«Соңғы бес жылда біз бес негізгі салада адамға ұқсас нәтижелерге қол жеткіздік: сөйлеуді тану, машиналық аударма, сұрақтарға жауап беру, машинаны оқу және мәтінді түсіну және 2020 жылы, COVID-19-ға қарамастан, суретті сипаттау. — деді Хуан.

Тақырып бойынша

Жүйе бұрын және қазір AI көмегімен берген кескіндерді сипаттау нәтижелерін салыстырыңыз

Microsoft корпорациясының Azure AI жүйесіндегі соңғы технологиясы суреттерді де, адамдарды да сипаттайды

Фото Getty Images сайтынан алынды. Алдыңғы сипаттама: кесу тақтасында хот-дог дайындап жатқан адамның жақыннан түсірілген суреті. Жаңа сипаттама: Адам нан жасайды.

Microsoft корпорациясының Azure AI жүйесіндегі соңғы технологиясы суреттерді де, адамдарды да сипаттайды

Фото Getty Images сайтынан алынды. Алдыңғы сипаттама: Күн батқанда адам отыр. Жаңа сипаттама: Жағажайдағы алау.

Microsoft корпорациясының Azure AI жүйесіндегі соңғы технологиясы суреттерді де, адамдарды да сипаттайды

Фото Getty Images сайтынан алынды. Алдыңғы сипаттама: Көк көйлек киген адам. Жаңа сипаттама: Хирургиялық бетперде киген бірнеше адам.

Microsoft корпорациясының Azure AI жүйесіндегі соңғы технологиясы суреттерді де, адамдарды да сипаттайды

Фото Getty Images сайтынан алынды. Алдыңғы сипаттама: Скейтбордтағы адам қабырғаға ұшып барады. Жаңа сипаттама: Бейсбол ойыншысы допты ұстап алады.

Ақпарат көзі: www.habr.com

пікір қалдыру