Nejnovější technologie společnosti Microsoft v Azure AI popisuje obrázky i lidi


Výzkumníci Microsoftu vytvořili systém umělé inteligence schopný generovat popisky obrázků, které se v mnoha případech ukáží jako přesnější než popisy vytvořené lidmi. Tento průlom znamenal významný milník v odhodlání společnosti Microsoft učinit své produkty a služby inkluzivními a přístupnými všem uživatelům.

„Popis obrazu je jednou z hlavních funkcí počítačového vidění, která umožňuje širokou škálu služeb,“ řekl Xuedong Huang (Xuedong Huang), technický ředitel společnosti Microsoft a technický ředitel Azure AI Cognitive Services v Redmondu, Washington.

Nový model je nyní k dispozici spotřebitelům prostřednictvím Computer Vision na adrese Azure Cognitive Services, která je součástí Azure AI a umožňuje vývojářům tuto funkci používat ke zlepšení dostupnosti jejich služeb. Je také součástí aplikace Seeing AI a bude k dispozici později v tomto roce v aplikacích Microsoft Word a Outlook pro Windows a Mac, stejně jako PowerPoint pro Windows, Mac a na webu.

Automatický popis pomáhá uživatelům získat přístup k důležitému obsahu jakéhokoli obrázku, ať už se jedná o fotografii vrácenou ve výsledcích vyhledávání nebo ilustraci pro prezentaci.

„Používání titulků, které popisují obsah obrázků (takzvaný alternativní nebo alternativní text) na webových stránkách a dokumentech, je zvláště důležité pro nevidomé nebo zrakově postižené lidi,“ řekl Saqib Sheikh (Saqib Shaikh), softwarový manažer ve skupině Microsoft AI Platform Group v Redmondu.

Jeho tým například používá vylepšenou funkci popisu obrázků v aplikaci pro nevidomé a zrakově postižené lidi. Vidět AI, který rozpozná, co kamera snímá, a vypráví o tom. Aplikace používá vygenerované titulky k popisu fotografií, a to i na sociálních sítích.

„V ideálním případě by každý měl přidat alternativní text ke všem obrázkům v dokumentech, na webu, na sociálních sítích, protože to umožňuje nevidomým přístup k obsahu a účastnit se konverzace. Ale lidé to bohužel nedělají,“ říká šejk. "Nicméně existuje několik aplikací, které používají funkci popisu obrázku k přidání alternativního textu, když chybí."
  
Nejnovější technologie společnosti Microsoft v Azure AI popisuje obrázky i lidi

Liruan Wang, generální manažer výzkumu v Redmond Lab společnosti Microsoft, vedl výzkumný tým, který dosáhl a překonal lidské výsledky. Foto: Dan DeLong.

Popis nových objektů

„Popis obrázků je jedním z hlavních úkolů počítačového vidění, který vyžaduje systém umělé inteligence, aby pochopil a popsal hlavní obsah nebo akci prezentovanou na obrázku,“ vysvětlil Liruan Wang (Lijuan Wang), generální manažer výzkumu v laboratoři Microsoftu v Redmondu.

"Musíte pochopit, co se děje, zjistit, jaké jsou vztahy mezi předměty a akcemi, a pak to vše shrnout a popsat ve větě v lidsky čitelném jazyce," řekla.

Wang vedl výzkumný tým, který v benchmarkingu nocaps (nové popisování objektů v měřítku, rozsáhlý popis nových objektů) dosáhl výsledku srovnatelného s lidským a předčil jej. Toto testování vám umožňuje vyhodnotit, jak dobře systémy AI generují popisy zobrazených objektů, které nejsou zahrnuty v datové sadě, na které byl model trénován.

Typicky jsou systémy popisu obrázků trénovány na souborech dat, které obsahují obrázky doprovázené textovým popisem těchto obrázků, to znamená na souborech podepsaných obrázků.

„Test nocaps ukazuje, jak dobře je systém schopen popsat nové objekty, které se nenacházejí v trénovacích datech,“ říká Wang.

K vyřešení tohoto problému tým Microsoftu předem vycvičil velký model umělé inteligence na velké datové sadě obsahující obrázky označené slovem, z nichž každý je spojen s určitým objektem v obrázku.

Soubory obrázků se slovními značkami namísto úplných popisků jsou efektivnější při vytváření, což umožňuje Wangovu týmu vložit do svého modelu spoustu dat. Tento přístup dal modelu to, co tým nazývá vizuální slovník.

Jak vysvětlil Huang, předškolní přístup využívající vizuální slovní zásobu je podobný přípravě dětí na čtení: nejprve se používá obrázková kniha, ve které jsou jednotlivá slova spojena s obrázky, například pod fotkou jablka je napsáno „jablko“ a pod fotkou kočky je slovo "kočka".

„Tento předškolní výcvik s vizuální slovní zásobou je v podstatě počátečním vzděláním potřebným k trénování systému. Tímto způsobem se snažíme vyvinout určitý druh motorické paměti,“ řekl Huang.

Předtrénovaný model je pak upřesněn pomocí datové sady obsahující označené obrázky. V této fázi tréninku se model učí tvořit věty. Pokud se objeví obrázek obsahující nové objekty, systém umělé inteligence použije vizuální slovník k vytvoření přesných popisů.

„Pro práci s novými objekty během testování systém integruje to, co se naučil během předběžného školení a během následného zdokonalování,“ říká Wang.
Podle výsledků výzkumPři hodnocení v testech nocaps vytvořil systém AI smysluplnější a přesnější popisy než lidé pro stejné obrázky.

Rychlejší přechod do pracovního prostředí 

Nový systém popisu obrázků je mimo jiné dvakrát lepší než model používaný v produktech a službách Microsoftu od roku 2015 ve srovnání s jiným oborovým benchmarkem.

S ohledem na výhody, které z tohoto vylepšení získají všichni uživatelé produktů a služeb Microsoftu, Huang urychlil integraci nového modelu do pracovního prostředí Azure.

„Tuto převratnou technologii AI přenášíme do Azure jako platformu, která bude sloužit širšímu spektru zákazníků,“ řekl. „A to není jen průlom ve výzkumu. Doba, kterou trvalo začlenění tohoto průlomu do produkčního prostředí Azure, byla také průlomová.“

Huang dodal, že dosahování výsledků podobných lidem pokračuje v trendu již zavedeném v systémech kognitivní inteligence společnosti Microsoft.

„Za posledních pět let jsme dosáhli výsledků podobných lidem v pěti hlavních oblastech: v rozpoznávání řeči, ve strojovém překladu, v odpovídání na otázky, ve strojovém čtení a porozumění textu a v roce 2020, navzdory COVID-19, v popisu obrázků. “ řekl Juan.

Podle tématu

Porovnejte výsledky popisu obrázků, které systém poskytoval dříve a nyní pomocí AI

Nejnovější technologie společnosti Microsoft v Azure AI popisuje obrázky i lidi

Foto s laskavým svolením Getty Images. Předchozí popis: Detailní záběr muže připravujícího párek v rohlíku na prkénku. Nový popis: Muž dělá chleba.

Nejnovější technologie společnosti Microsoft v Azure AI popisuje obrázky i lidi

Foto s laskavým svolením Getty Images. Předchozí popis: Muž sedí při západu slunce. Nový popis: Oheň na pláži.

Nejnovější technologie společnosti Microsoft v Azure AI popisuje obrázky i lidi

Foto s laskavým svolením Getty Images. Předchozí popis: Muž v modré košili. Nový popis: Několik lidí nosí chirurgické masky.

Nejnovější technologie společnosti Microsoft v Azure AI popisuje obrázky i lidi

Foto s laskavým svolením Getty Images. Předchozí popis: Muž na skateboardu letí po zdi. Nový popis: Hráč baseballu chytá míč.

Zdroj: www.habr.com

Přidat komentář