Najnovšia technológia spoločnosti Microsoft v Azure AI popisuje obrázky aj ľudí


Výskumníci Microsoftu vytvorili systém umelej inteligencie, ktorý dokáže generovať popisky obrázkov, ktoré sa v mnohých prípadoch ukážu byť presnejšie ako popisy vytvorené ľuďmi. Tento prelom znamenal významný míľnik v záväzku spoločnosti Microsoft poskytovať svoje produkty a služby inkluzívne a dostupné všetkým používateľom.

„Popis obrazu je jednou z hlavných funkcií počítačového videnia, ktorá umožňuje široké spektrum služieb,“ povedal Xuedong Huang (Xuedong Huang), technický riaditeľ spoločnosti Microsoft a technický riaditeľ Azure AI Cognitive Services v Redmonde, Washington.

Nový model je teraz dostupný pre spotrebiteľov prostredníctvom Computer Vision na adrese Azure kognitívne služby, ktorá je súčasťou Azure AI a umožňuje vývojárom túto funkciu využívať na zlepšenie dostupnosti ich služieb. Je tiež súčasťou aplikácie Seeing AI a bude k dispozícii neskôr v tomto roku v programoch Microsoft Word a Outlook pre Windows a Mac, ako aj PowerPoint pre Windows, Mac a na webe.

Automatický popis pomáha používateľom získať prístup k dôležitému obsahu akéhokoľvek obrázka, či už ide o fotografiu vrátenú vo výsledkoch vyhľadávania alebo ilustráciu pre prezentáciu.

„Používanie titulkov, ktoré popisujú obsah obrázkov (takzvaný alternatívny alebo alternatívny text) na webových stránkach a dokumentoch, je obzvlášť dôležité pre nevidomých alebo slabozrakých ľudí,“ povedal Saqib Sheikh (Saqib Shaikh), softvérový manažér v skupine Microsoft AI Platform Group v Redmonde.

Jeho tím napríklad používa vylepšenú funkciu popisu obrázkov v aplikácii pre nevidiacich a slabozrakých ľudí. Vidieť AI, ktorý rozpozná, čo kamera sníma, a povie o tom. Aplikácia používa vygenerované titulky na popis fotografií, a to aj na sociálnych médiách.

„V ideálnom prípade by mal každý pridať alternatívny text ku všetkým obrázkom v dokumentoch, na webe, na sociálnych sieťach, pretože to umožňuje nevidiacim prístup k obsahu a zúčastniť sa konverzácie. Ale, bohužiaľ, ľudia to nerobia,“ hovorí šejk. "Existuje však niekoľko aplikácií, ktoré používajú funkciu popisu obrázka na pridanie alternatívneho textu, keď chýba."
  
Najnovšia technológia spoločnosti Microsoft v Azure AI popisuje obrázky aj ľudí

Liruan Wang, generálny manažér výskumu v Redmond Lab spoločnosti Microsoft, viedol výskumný tím, ktorý dosiahol a prekonal ľudské výsledky. Foto: Dan DeLong.

Popis nových objektov

„Popis obrázkov je jednou z hlavných úloh počítačového videnia, ktoré si vyžaduje systém umelej inteligencie, aby pochopil a opísal hlavný obsah alebo akciu prezentovanú na obrázku,“ vysvetlil Liruan Wang (Lijuan Wang), generálny riaditeľ výskumu v laboratóriu Microsoft Redmond.

„Musíte pochopiť, čo sa deje, zistiť, aké sú vzťahy medzi predmetmi a činmi, a potom to všetko zhrnúť a opísať vo vete v ľudsky čitateľnom jazyku,“ povedala.

Wang viedol výskumný tím, ktorý v benchmarkingu nocaps (nový objekt titulkovanie v mierke, rozsiahly popis nových objektov) dosiahol výsledok porovnateľný s ľudským a prekonal ho. Toto testovanie vám umožňuje vyhodnotiť, ako dobre systémy AI generujú popisy zobrazených objektov, ktoré nie sú zahrnuté v množine údajov, na ktorej bol model trénovaný.

Typicky sa systémy popisu obrázkov trénujú na súboroch údajov, ktoré obsahujú obrázky sprevádzané textovým popisom týchto obrázkov, to znamená na súboroch podpísaných obrázkov.

„Test nocaps ukazuje, ako dobre je systém schopný opísať nové objekty, ktoré sa nenachádzajú v tréningových údajoch,“ hovorí Wang.

Na vyriešenie tohto problému tím Microsoftu vopred vycvičil veľký model AI na veľkom súbore údajov obsahujúcich obrázky so slovnými značkami, z ktorých každý je spojený s konkrétnym objektom na obrázku.

Vytváranie súborov obrázkov so slovnými značkami namiesto úplných titulkov je efektívnejšie, čo Wangovmu tímu umožňuje vložiť do svojho modelu množstvo údajov. Tento prístup dal modelu to, čo tím nazýva vizuálny slovník.

Ako vysvetlil Huang, predškolský prístup využívajúci vizuálnu slovnú zásobu je podobný príprave detí na čítanie: najprv sa používa obrázková kniha, v ktorej sú jednotlivé slová spojené s obrázkami, napríklad pod fotkou jablka je napísané „jablko“ a pod fotkou mačky je slovo "mačka".

„Tento predbežný tréning s vizuálnou slovnou zásobou je v podstate počiatočným vzdelávaním potrebným na trénovanie systému. Takto sa snažíme vyvinúť určitý druh motorickej pamäte,“ povedal Huang.

Predtrénovaný model sa potom spresní pomocou súboru údajov vrátane označených obrázkov. V tejto fáze tréningu sa model učí vytvárať vety. Ak sa objaví obrázok obsahujúci nové objekty, systém AI použije vizuálny slovník na vytvorenie presných popisov.

„Na prácu s novými objektmi počas testovania systém integruje to, čo sa naučil počas predbežného školenia a počas následného zdokonaľovania,“ hovorí Wang.
Podľa výsledkov výskumPri hodnotení v testoch nocaps vytvoril systém AI zmysluplnejšie a presnejšie popisy ako ľudia pre rovnaké obrázky.

Rýchlejší prechod do pracovného prostredia 

Okrem iného je nový systém popisu obrázkov dvakrát lepší ako model používaný v produktoch a službách Microsoftu od roku 2015 v porovnaní s iným priemyselným benchmarkom.

Vzhľadom na výhody, ktoré z tohto zlepšenia získajú všetci používatelia produktov a služieb Microsoftu, Huang urýchlil integráciu nového modelu do pracovného prostredia Azure.

„Prenášame túto prevratnú technológiu AI do Azure ako platformu, ktorá slúži širšiemu spektru zákazníkov,“ povedal. „A to nie je len prelom vo výskume. Čas potrebný na začlenenie tohto prelomu do produkčného prostredia Azure bol tiež prelomový.“

Huang dodal, že dosahovanie výsledkov podobných ľuďom pokračuje v trende, ktorý už bol zavedený v systémoch kognitívnej inteligencie spoločnosti Microsoft.

„Za posledných päť rokov sme dosiahli výsledky podobné ľuďom v piatich hlavných oblastiach: v rozpoznávaní reči, v strojovom preklade, v odpovedaní na otázky, v strojovom čítaní a porozumení textu a v roku 2020, napriek COVID-19, v popise obrázkov. “ povedal Juan.

Podľa témy

Porovnajte výsledky popisu obrázkov, ktoré systém poskytol predtým a teraz pomocou AI

Najnovšia technológia spoločnosti Microsoft v Azure AI popisuje obrázky aj ľudí

Foto s láskavým dovolením Getty Images. Predchádzajúci popis: Detailný záber na muža pripravujúceho párok v rožku na doske. Nový popis: Muž robí chlieb.

Najnovšia technológia spoločnosti Microsoft v Azure AI popisuje obrázky aj ľudí

Foto s láskavým dovolením Getty Images. Predchádzajúci popis: Muž sedí pri západe slnka. Nový popis: Oheň na pláži.

Najnovšia technológia spoločnosti Microsoft v Azure AI popisuje obrázky aj ľudí

Foto s láskavým dovolením Getty Images. Predchádzajúci popis: Muž v modrej košeli. Nový popis: Niekoľko ľudí nosí chirurgické masky.

Najnovšia technológia spoločnosti Microsoft v Azure AI popisuje obrázky aj ľudí

Foto s láskavým dovolením Getty Images. Predchádzajúci popis: Muž na skateboarde letí po stene. Nový popis: Hráč baseballu chytá loptu.

Zdroj: hab.com

Pridať komentár