Cea mai recentă tehnologie Microsoft în Azure AI descrie atât imaginile cât și oamenii


Cercetătorii Microsoft au creat un sistem de inteligență artificială capabil să genereze subtitrări de imagini care, în multe cazuri, se dovedesc a fi mai precise decât descrierile făcute de oameni. Această descoperire a marcat o piatră de hotar majoră în angajamentul Microsoft de a face produsele și serviciile sale inclusive și accesibile pentru toți utilizatorii.

„Descrierea imaginii este una dintre funcțiile principale ale vederii computerizate, ceea ce face posibilă o gamă largă de servicii”, a spus Xuedong Huang (Xuedong Huang), un ofițer tehnic Microsoft și CTO al Azure AI Cognitive Services din Redmond, Washington.

Noul model este acum disponibil consumatorilor prin Computer Vision la Servicii cognitive Azure, care face parte din Azure AI și permite dezvoltatorilor să folosească această caracteristică pentru a îmbunătăți disponibilitatea serviciilor lor. De asemenea, este inclus în aplicația Seeing AI și va fi disponibil în cursul acestui an în Microsoft Word și Outlook pentru Windows și Mac, precum și în PowerPoint pentru Windows, Mac și pe web.

Descrierea automată ajută utilizatorii să acceseze conținutul important al oricărei imagini, fie că este o fotografie afișată în rezultatele căutării sau o ilustrație pentru o prezentare.

„Folosirea subtitrărilor care descriu conținutul imaginilor (așa-numitul text alternativ sau alternativ) pe paginile web și documente este deosebit de importantă pentru persoanele nevăzătoare sau cu deficiențe de vedere”, a spus Saqib Sheikh (Saqib Shaikh), Manager de software la Microsoft AI Platform Group din Redmond.

De exemplu, echipa sa folosește o funcție îmbunătățită de descriere a imaginii în aplicație pentru persoanele nevăzătoare și cu deficiențe de vedere. Văzând AI, care recunoaște ceea ce surprinde camera și spune despre asta. Aplicația folosește subtitrări generate pentru a descrie fotografii, inclusiv pe rețelele sociale.

„În mod ideal, toată lumea ar trebui să adauge text alternativ la toate imaginile din documente, pe web, pe rețelele sociale, deoarece acest lucru le permite persoanelor nevăzătoare să acceseze conținutul și să participe la conversație. Dar, din păcate, oamenii nu fac asta”, spune șeicul. „Cu toate acestea, există câteva aplicații care folosesc caracteristica de descriere a imaginii pentru a adăuga text alternativ atunci când lipsește.”
  
Cea mai recentă tehnologie Microsoft în Azure AI descrie atât imaginile cât și oamenii

Liruan Wang, director general de cercetare la Redmond Lab al Microsoft, a condus o echipă de cercetare care a obținut și depășit rezultate umane. Foto: Dan DeLong.

Descrierea obiectelor noi

„Descrierea imaginilor este una dintre sarcinile principale ale vederii computerizate, care necesită un sistem de inteligență artificială pentru a înțelege și descrie conținutul sau acțiunea principală prezentată în imagine”, a explicat Liruan Wang (Lijuan Wang), director general de cercetare la laboratorul Microsoft Redmond.

„Trebuie să înțelegeți ce se întâmplă, să vă dați seama care sunt relațiile dintre obiecte și acțiuni, apoi să rezumați și să descrieți totul într-o propoziție într-un limbaj care poate fi citit de om”, a spus ea.

Wang a condus echipa de cercetare, care în benchmarking nocaps (subtitrărea obiectelor romane la scară, o descriere la scară largă a obiectelor noi) a obținut un rezultat comparabil cu cel uman și l-a depășit. Această testare vă permite să evaluați cât de bine sistemele AI generează descrieri ale obiectelor ilustrate care nu sunt incluse în setul de date pe care a fost antrenat modelul.

De obicei, sistemele de descriere a imaginilor sunt antrenate pe seturi de date care conțin imagini însoțite de o descriere textuală a acestor imagini, adică pe seturi de imagini semnate.

„Testul nocaps arată cât de bine este sistemul capabil să descrie obiectele noi care nu au fost găsite în datele de antrenament”, spune Wang.

Pentru a rezolva această problemă, echipa Microsoft a pregătit în prealabil un model AI mare pe un set de date mare care conține imagini etichetate cu cuvinte, fiecare asociată cu un anumit obiect din imagine.

Seturile de imagini cu etichete de cuvinte în loc de legendele complete sunt mai eficiente de creat, permițând echipei lui Wang să introducă o mulțime de date în modelul lor. Această abordare a oferit modelului ceea ce echipa numește un vocabular vizual.

După cum a explicat Huang, abordarea preînvățare folosind vocabularul vizual este similară cu pregătirea copiilor pentru lectură: în primul rând, se folosește o carte ilustrată în care cuvintele individuale sunt asociate cu imagini, de exemplu, sub o fotografie a unui măr este scris „măr”. iar sub fotografia unei pisici este cuvântul "pisica".

„Această pregătire preliminară cu vocabular vizual este, în esență, educația inițială necesară pentru a antrena sistemul. Acesta este modul în care încercăm să dezvoltăm un fel de memorie motorie”, a spus Huang.

Modelul pre-antrenat este apoi rafinat cu un set de date care include imagini etichetate. În această etapă de antrenament, modelul învață să facă propoziții. Dacă apare o imagine care conține obiecte noi, sistemul AI folosește dicționarul vizual pentru a crea descrieri precise.

„Pentru a lucra cu obiecte noi în timpul testării, sistemul integrează ceea ce a învățat în timpul pre-antrenamentului și în timpul perfecționării ulterioare”, spune Wang.
Conform rezultatelor cercetare, atunci când a fost evaluat la testele nocaps, sistemul AI a produs descrieri mai semnificative și mai precise decât au făcut oamenii pentru aceleași imagini.

Tranziție mai rapidă la mediul de lucru 

Printre altele, noul sistem de descriere a imaginilor este de două ori mai bun decât modelul utilizat în produsele și serviciile Microsoft din 2015, în comparație cu un alt etalon din industrie.

Având în vedere beneficiile pe care toți utilizatorii produselor și serviciilor Microsoft le vor primi din această îmbunătățire, Huang a accelerat integrarea noului model în mediul de lucru Azure.

„Luăm această tehnologie AI perturbatoare la Azure ca platformă pentru a servi o gamă mai largă de clienți”, a spus el. „Și acesta nu este doar o descoperire în cercetare. Timpul necesar pentru a încorpora această descoperire în mediul de producție Azure a fost, de asemenea, o descoperire.”

Huang a adăugat că obținerea de rezultate asemănătoare omului continuă o tendință deja stabilită în sistemele de inteligență cognitivă ale Microsoft.

„În ultimii cinci ani, am obținut rezultate asemănătoare oamenilor în cinci domenii majore: în recunoașterea vorbirii, în traducerea automată, în răspunsul la întrebări, în citirea automată și în înțelegerea textului și, în 2020, în ciuda COVID-19, în descrierea imaginii. a spus Juan.

După subiect

Comparați rezultatele descrierii imaginilor pe care sistemul le-a dat înainte și acum folosind AI

Cea mai recentă tehnologie Microsoft în Azure AI descrie atât imaginile cât și oamenii

Fotografie prin amabilitatea Getty Images. Descrierea anterioară: Prim-plan al unui bărbat care pregătește un hot dog pe o placă de tăiat. Descriere nouă: Un om face pâine.

Cea mai recentă tehnologie Microsoft în Azure AI descrie atât imaginile cât și oamenii

Fotografie prin amabilitatea Getty Images. Descrierea anterioară: Un bărbat stă la apus. Descriere nouă: Foc de tabără pe plajă.

Cea mai recentă tehnologie Microsoft în Azure AI descrie atât imaginile cât și oamenii

Fotografie prin amabilitatea Getty Images. Descrierea anterioară: Un bărbat într-o cămașă albastră. Descriere nouă: Mai multe persoane care poartă măști chirurgicale.

Cea mai recentă tehnologie Microsoft în Azure AI descrie atât imaginile cât și oamenii

Fotografie prin amabilitatea Getty Images. Descrierea anterioară: Un bărbat pe un skateboard zboară pe perete. Descriere nouă: un jucător de baseball prinde o minge.

Sursa: www.habr.com

Adauga un comentariu