A Microsoft Azure AI legújabb technológiája a képeket és az embereket is leírja


A Microsoft kutatói mesterséges intelligencia rendszert hoztak létre, amely képes olyan képaláírásokat generálni, amelyek sok esetben pontosabbak, mint az emberi leírások. Ez az áttörés jelentős mérföldkövet jelent a Microsoft azon elkötelezettségében, hogy termékeit és szolgáltatásait minden felhasználó számára befogadóvá és elérhetővé tegye.

"A képleírás a számítógépes látás egyik alapvető funkciója, amely szolgáltatások széles skáláját teszi lehetővé" - mondta Xuedong Huang (Xuedong Huang), a Microsoft műszaki munkatársa és az Azure AI Cognitive Services technológiai igazgatója Redmondban, Washingtonban.

Az új modell már elérhető a fogyasztók számára a Computer Vision webhelyen keresztül Azure kognitív szolgáltatások, amely az Azure AI része, és lehetővé teszi a fejlesztők számára, hogy ezt a képességet szolgáltatásaik elérhetőségének javítására használják. A Seeing AI alkalmazásban is megtalálható, és még ebben az évben megjelenik a Microsoft Word és az Outlook for Windows és Mac verziókban, valamint a PowerPoint for Windows, Mac és a weben.

Az automatikus leírás segít a felhasználóknak hozzáférni bármely kép fontos tartalmához, legyen az egy keresési eredményben visszaadott fénykép vagy egy prezentáció illusztrációja.

„A képek tartalmát leíró feliratok használata (úgynevezett alternatív vagy alternatív szöveg) a weboldalakon és dokumentumokon különösen fontos a vak vagy gyengénlátó emberek számára” – mondta Saqib Sheikh (Saqib Shaikh), szoftverkezelő a Microsoft AI Platforms csoportjában, Redmondban.

Csapata például egy továbbfejlesztett képleíró funkciót használ az alkalmazásban a vakok és gyengénlátók számára AI látása, amely felismeri, hogy mit vesz fel a kamera, és beszél róla. Az alkalmazás generált feliratokat használ a fényképek leírására, beleértve a közösségi hálózatokat is.

„Ideális esetben mindenkinek alternatív szöveget kell hozzáadnia a dokumentumokban, az interneten és a közösségi médiában lévő összes képhez, mivel ez lehetővé teszi a vakok számára, hogy hozzáférjenek a tartalomhoz és részt vegyenek a beszélgetésben. De sajnos az emberek nem csinálják ezt” – mondja Sheikh. "Számos alkalmazás azonban a képleíró funkció segítségével alternatív szöveget ad hozzá, ha nincs ilyen."
  
A Microsoft Azure AI legújabb technológiája a képeket és az embereket is leírja

Lijuan Wang, a Microsoft redmondi laboratóriumának vezető kutatási vezetője olyan kutatócsoportot vezetett, amely emberhez hasonló és jobb eredményeket ért el. Fotó: Dan DeLong.

Új objektumok leírása

"A képleírás a számítógépes látás egyik fő feladata, amelyhez mesterséges intelligencia rendszerre van szükség ahhoz, hogy megértse és leírja a képen megjelenített fő tartalmat vagy műveletet" - magyarázta Lijuan Wang (Lijuan Wang), a Microsoft redmondi laboratóriumának vezető kutatási vezetője.

„Meg kell értened, mi történik, ki kell találnod, mi a kapcsolat a tárgyak és a cselekvések között, majd mindezt össze kell foglalnod és le kell írnod ​​egy mondatban, ember számára érthető nyelven” – mondta.

Wang vezette a benchmarkot végző kutatócsoportot nocaps (újszerű tárgyfeliratozás léptékben, új tárgyak nagyszabású leírása) az emberihez hasonló eredményeket értek el és felülmúltak azokat. Ez a tesztelés azt értékeli, hogy az AI-rendszerek milyen jól generálnak leírást olyan ábrázolt objektumokról, amelyek nem részei annak az adathalmaznak, amelyre a modellt betanították.

A képleíró rendszereket általában olyan adathalmazokra képezik, amelyek képeket tartalmaznak ezeknek a képeknek a szöveges leírásával együtt, azaz címkézett képkészleteken.

„A nocaps teszt megmutatja, hogy a rendszer mennyire képes leírni a tanítási adatokban nem található új objektumokat” – mondja Wang.

A probléma megoldása érdekében a Microsoft csapata előképzett egy nagy mesterséges intelligencia-modellt egy hatalmas adathalmazra, amely szócímkékkel ellátott képeket tartalmazott, amelyek mindegyike a kép egy-egy objektumához volt társítva.

Hatékonyabb volt a teljes feliratok helyett szócímkékkel ellátott képkészleteket létrehozni, ami lehetővé tette Wang csapata számára, hogy sok adatot tápláljon be a modelljébe. Ez a megközelítés adta a modellnek azt, amit a csapat vizuális szókincsnek nevez.

Ahogy Huang elmagyarázta, a vizuális szókincs előtanítási megközelítése hasonló a gyerekek olvasásra való felkészítéséhez: Először is egy képeskönyvet használnak, amelyben az egyes szavakat képekkel társítják, például egy almáról készült fotó alatt azt írják, hogy "alma" és egy macska fotója alatt a „macska” szó.

„Ez a vizuális szótárral való előképzés lényegében a rendszer betanításához szükséges alapképzés. Így próbálunk egyfajta motoros memóriát fejleszteni” – mondta Huang.

Az előre betanított modellt ezután egy feliratos képeket tartalmazó adatkészlet segítségével finomítják. A képzés ezen szakaszában a modell megtanul mondatokat alkotni. Ha megjelenik egy kép, amely új objektumokat tartalmaz, az AI-rendszer vizuális szótárt használ a pontos leírások létrehozásához.

„A tesztelés során az új objektumok kezeléséhez a rendszer egyesíti az előképzés és a későbbi fejlesztés során tanultakat” – mondja Wang.
Az eredmények szerint kutatásA nocaps teszteken értékelve a mesterséges intelligencia rendszer értelmesebb és pontosabb leírást adott, mint az emberek ugyanazon képekhez.

Gyorsított átállás a munkakörnyezetbe 

Többek között az új képleíró rendszer kétszer olyan jó, mint a Microsoft termékekben és szolgáltatásokban 2015 óta használt modell egy másik iparági benchmark szerint.

Figyelembe véve azokat az előnyöket, amelyeket a Microsoft-termékek és -szolgáltatások minden felhasználója élvezhet ebből a fejlesztésből, a Huang felgyorsította az új modell Azure asztali környezetbe való integrálását.

„Ezt az áttörést jelentő mesterséges intelligencia technológiát az Azure-ba visszük, mint olyan platformot, amely az ügyfelek szélesebb körét szolgálja ki” – mondta. „És ez nem csak a kutatásban jelent áttörést. Az áttörésnek az Azure éles környezetébe való beépítéséhez szükséges idő is áttörést jelentett.”

Huang hozzátette, hogy az emberhez hasonló eredmények elérése a Microsoft kognitív intelligenciarendszereiben már kialakult trendet folytatja.

„Az elmúlt öt évben öt fő területen értünk el emberi szintű eredményeket: beszédfelismerés, gépi fordítás, kérdésválasz, gépi olvasás és szövegértés, 2020-ban pedig a COVID-19 ellenére a képleírás” – mondta Juan.

Téma szerint

Hasonlítsa össze a képleírások eredményeit, amelyeket a rendszer korábban és most az AI használatával adott

A Microsoft Azure AI legújabb technológiája a képeket és az embereket is leírja

Fotó a Getty Images könyvtárból. Előző leírás: Közeli kép egy férfiról, aki hot dogot főz egy vágódeszkán. Új leírás: Az ember kenyeret készít.

A Microsoft Azure AI legújabb technológiája a képeket és az embereket is leírja

Fotó a Getty Images könyvtárból. Előző leírás: Egy férfi ül naplementekor. Új leírás: Máglya a tengerparton.

A Microsoft Azure AI legújabb technológiája a képeket és az embereket is leírja

Fotó a Getty Images könyvtárból. Előző leírás: Egy férfi kék ingben. Új leírás: Többen sebészeti maszkot viselnek.

A Microsoft Azure AI legújabb technológiája a képeket és az embereket is leírja

Fotó a Getty Images könyvtárból. Előző leírás: egy férfi gördeszkán repül fel a falon. Új leírás: Egy baseball játékos elkap egy labdát.

Forrás: will.com

Hozzászólás