Најновата технологија на Microsoft во Azure AI опишува слики, како и луѓе


Истражувачите на Мајкрософт создадоа систем за вештачка интелигенција способен да генерира наслови на слики кои, во многу случаи, излегуваат попрецизни од описите направени од луѓето. Овој пробив означи голема пресвртница во посветеноста на Мајкрософт да ги направи своите производи и услуги инклузивни и достапни за сите корисници.

„Описот на сликата е една од главните функции на компјутерската визија, што овозможува широк опсег на услуги“, рече Ксуедонг Хуанг (Ксуедонг Хуанг), Технички службеник на Мајкрософт и CTO на когнитивните услуги на Azure AI во Редмонд, Вашингтон.

Новиот модел сега е достапен за потрошувачите преку Computer Vision на Азурни когнитивни услуги, кој е дел од Azure AI и им овозможува на програмерите да ја користат оваа функција за да ја подобрат достапноста на нивните услуги. Исто така е вклучена во апликацијата Seeing AI и ќе биде достапна подоцна оваа година во Microsoft Word и Outlook за Windows и Mac, како и PowerPoint за Windows, Mac и на веб.

Автоматскиот опис им помага на корисниците да пристапат до важната содржина на која било слика, без разлика дали тоа е фотографија вратена во резултатите од пребарувањето или илустрација за презентација.

„Употребата на натписи што ја опишуваат содржината на сликите (т.н. алтернативен или алтернативен текст) на веб-страници и документи е особено важна за слепите или лицата со оштетен вид“, рече Сакиб Шеик (Сакиб Шеик), Менаџер за софтвер во групата платформа за вештачка интелигенција на Мајкрософт во Редмонд.

На пример, неговиот тим користи подобрена функција за опис на слики во апликацијата за слепи и лица со оштетен вид. Гледајќи АИ, кој препознава што снима камерата и кажува за тоа. Апликацијата користи генерирани натписи за опишување фотографии, вклучително и на социјалните мрежи.

„Идеално, секој треба да додаде алтернативен текст на сите слики во документи, на веб, на социјалните мрежи, бидејќи тоа им овозможува на слепите луѓе да пристапат до содржината и да учествуваат во разговорот. Но, за жал, луѓето не го прават ова“, вели шеикот. „Сепак, има неколку апликации кои ја користат функцијата за опис на сликата за да додадат алтернативен текст кога недостасува.
  
Најновата технологија на Microsoft во Azure AI опишува слики, како и луѓе

Лируан Ванг, генерален менаџер за истражување во лабораторијата Редмонд на Мајкрософт, предводеше истражувачки тим кој постигна и ги надмина човечките резултати. Фото: Ден Делонг.

Опис на нови објекти

„Опишувањето слики е една од главните задачи на компјутерската визија, која бара систем на вештачка интелигенција да ја разбере и опише главната содржина или дејство претставени на сликата“, објасни Лируан Ванг (Лихуан Ванг), генерален менаџер за истражување во лабораторијата на Мајкрософт во Редмонд.

„Треба да разберете што се случува, да откриете какви се односите помеѓу предметите и дејствата, а потоа да го сумирате и опишете сето тоа во реченица на јазик читлив за луѓе“, рече таа.

Ванг го предводеше истражувачкиот тим, кој во бенчмаркинг нокапи (наслов на нов објект во размер, опис на нови објекти во голем обем) постигна резултат споредлив со човечки и го надмина. Ова тестирање ви овозможува да процените колку добро системите со вештачка интелигенција генерираат описи на прикажаните објекти кои не се вклучени во множеството податоци на кои е обучен моделот.

Вообичаено, системите за опис на слики се обучуваат за множества на податоци кои содржат слики придружени со текстуален опис на овие слики, односно на множества потпишани слики.

„Нокапс тестот покажува колку добро системот може да опише нови објекти што не се пронајдени во податоците за обуката“, вели Ванг.

За да го реши овој проблем, тимот на Мајкрософт претходно обучи голем модел на вештачка интелигенција на голема база на податоци што содржи слики означени со зборови, секоја поврзана со одреден објект на сликата.

Сетови на слики со ознаки за зборови наместо целосни натписи се поефикасни за креирање, дозволувајќи му на тимот на Ванг да внесе многу податоци во нивниот модел. Овој пристап му даде на моделот она што тимот го нарекува визуелен речник.

Како што објасни Хуанг, пристапот пред учење со користење на визуелен речник е сличен на подготовката на децата за читање: прво, се користи сликовница во која поединечни зборови се поврзуваат со слики, на пример, под фотографијата на јаболко е напишано „јаболко“ а под фотографијата на мачка стои зборот „мачка“.

„Оваа претходна обука со визуелен речник е, во суштина, иницијалното образование потребно за обука на системот. Така се обидуваме да развиеме еден вид моторна меморија“, рече Хуанг.

Претходно обучениот модел потоа се рафинира со база на податоци што вклучува означени слики. Во оваа фаза на обука, моделот учи да прави реченици. Ако се појави слика што содржи нови објекти, системот AI го користи визуелниот речник за да создаде точни описи.

„За да работи со нови објекти за време на тестирањето, системот го интегрира она што го научил за време на пред-тренингот и за време на последователното усовршување“, вели Ванг.
Според резултатите истражување, кога се оценуваше на тестовите nocaps, системот за вештачка интелигенција произведе позначајни и точни описи отколку луѓето за истите слики.

Побрза транзиција кон работната средина 

Меѓу другото, новиот систем за опис на слики е двојно подобар од моделот што се користи во производите и услугите на Microsoft од 2015 година, кога ќе се спореди со друг индустриски репер.

Имајќи ги предвид придобивките што ќе ги добијат сите корисници на производите и услугите на Microsoft од ова подобрување, Хуанг ја забрза интеграцијата на новиот модел во работната средина на Azure.

„Ние ја носиме оваа непушачка технологија за вештачка интелигенција во Azure како платформа за опслужување на поширок опсег на клиенти“, рече тој. „И ова не е само пробив во истражувањето. Времето потребно за да се вклучи овој пробив во производствената средина на Azure, исто така беше пробив.

Хуанг додаде дека постигнувањето резултати слични на луѓето го продолжува трендот веќе воспоставен во системите за когнитивна интелигенција на Мајкрософт.

„Во текот на изминатите пет години, постигнавме резултати слични на луѓето во пет главни области: во препознавање говор, во машински превод, во одговарање прашања, во машинско читање и разбирање текст и во 2020 година, и покрај СОВИД-19, во опис на слики “, рече Хуан.

Според темата

Споредете ги резултатите од описот на сликите што системот ги даваше порано и сега користејќи вештачка интелигенција

Најновата технологија на Microsoft во Azure AI опишува слики, како и луѓе

Фотографијата е дадена на Getty Images. Претходен опис: Крупен кадар на човек кој подготвува хот-дог на даска за сечење. Нов опис: Човек прави леб.

Најновата технологија на Microsoft во Azure AI опишува слики, како и луѓе

Фотографијата е дадена на Getty Images. Претходен опис: Еден човек седи на зајдисонце. Нов опис: Оган на плажа.

Најновата технологија на Microsoft во Azure AI опишува слики, како и луѓе

Фотографијата е дадена на Getty Images. Претходен опис: Човек во сина кошула. Нов опис: Неколку луѓе носат хируршки маски.

Најновата технологија на Microsoft во Azure AI опишува слики, како и луѓе

Фотографијата е дадена на Getty Images. Претходен опис: Човек на скејтборд лета по ѕидот. Нов опис: Бејзбол играч фаќа топка.

Извор: www.habr.com

Додадете коментар