Ang pinakabagong teknolohiya ng Microsoft sa Azure AI ay naglalarawan ng mga larawan pati na rin ang mga tao


Ang mga mananaliksik ng Microsoft ay lumikha ng isang artificial intelligence system na may kakayahang bumuo ng mga caption ng larawan na, sa maraming kaso, ay nagiging mas tumpak kaysa sa mga paglalarawang ginawa ng mga tao. Ang pambihirang tagumpay na ito ay minarkahan ang isang pangunahing milestone sa pangako ng Microsoft na gawin ang mga produkto at serbisyo nito na kasama at naa-access sa lahat ng mga gumagamit.

"Ang paglalarawan ng larawan ay isa sa mga pangunahing function ng computer vision, na ginagawang posible ang malawak na hanay ng mga serbisyo," sabi ni Xuedong Huang (Xuedong Huang), isang Microsoft Technical Officer at CTO ng Azure AI Cognitive Services sa Redmond, Washington.

Ang bagong modelo ay magagamit na ngayon sa mga mamimili sa pamamagitan ng Computer Vision sa Azure Cognitive Services, na bahagi ng Azure AI, at nagbibigay-daan sa mga developer na gamitin ang feature na ito para mapahusay ang availability ng kanilang mga serbisyo. Kasama rin ito sa Seeing AI app at magiging available sa huling bahagi ng taong ito sa Microsoft Word at Outlook para sa Windows at Mac, pati na rin sa PowerPoint para sa Windows, Mac at sa web.

Tinutulungan ng Auto Description ang mga user na ma-access ang mahalagang nilalaman ng anumang larawan, ito man ay isang larawang ibinalik sa mga resulta ng paghahanap o paglalarawan para sa isang presentasyon.

"Ang paggamit ng mga caption na naglalarawan sa nilalaman ng mga larawan (tinatawag na alternatibo o alternatibong teksto) sa mga web page at mga dokumento ay lalong mahalaga para sa mga bulag o may kapansanan sa paningin," sabi ni Saqib Sheikh (Saqib Shaikh), Software Manager sa AI Platform Group ng Microsoft sa Redmond.

Halimbawa, ang kanyang team ay gumagamit ng pinahusay na feature ng paglalarawan ng larawan sa app para sa mga taong bulag at may kapansanan sa paningin. Nakikita ang Ai, na kinikilala kung ano ang kinukunan ng camera at sinasabi tungkol dito. Gumagamit ang app ng mga nabuong caption upang ilarawan ang mga larawan, kabilang ang sa social media.

"Sa isip, lahat ay dapat magdagdag ng alt text sa lahat ng mga imahe sa mga dokumento, sa web, sa mga social network, dahil pinapayagan nito ang mga bulag na ma-access ang nilalaman at makilahok sa pag-uusap. Ngunit, sayang, hindi ito ginagawa ng mga tao, "sabi ng Sheikh. "Gayunpaman, may ilang app na gumagamit ng feature na paglalarawan ng larawan upang magdagdag ng alternatibong text kapag nawawala ito."
  
Ang pinakabagong teknolohiya ng Microsoft sa Azure AI ay naglalarawan ng mga larawan pati na rin ang mga tao

Si Liruan Wang, pangkalahatang tagapamahala ng pananaliksik sa Redmond Lab ng Microsoft, ay namuno sa isang pangkat ng pananaliksik na nakamit at nalampasan ang mga resulta ng tao. Larawan: Dan DeLong.

Paglalarawan ng mga bagong bagay

"Ang paglalarawan ng mga imahe ay isa sa mga pangunahing gawain ng computer vision, na nangangailangan ng isang artificial intelligence system upang maunawaan at mailarawan ang pangunahing nilalaman o aksyon na ipinakita sa imahe," paliwanag ni Liruan Wang (Lijuan Wang), pangkalahatang tagapamahala ng pananaliksik sa Redmond lab ng Microsoft.

"Kailangan mong maunawaan kung ano ang nangyayari, alamin kung ano ang mga ugnayan sa pagitan ng mga bagay at aksyon, at pagkatapos ay ibuod at ilarawan ang lahat ng ito sa isang pangungusap sa wikang nababasa ng tao," sabi niya.

Pinangunahan ni Wang ang pangkat ng pananaliksik, na sa benchmarking walang sumbrero (novel object captioning sa sukat, isang malakihang paglalarawan ng mga bagong bagay) nakamit ang isang resulta na maihahambing sa isang tao, at nalampasan ito. Nagbibigay-daan sa iyo ang pagsubok na ito na suriin kung gaano kahusay ang pagbuo ng mga AI system ng mga paglalarawan ng mga itinatanghal na bagay na hindi kasama sa set ng data kung saan sinanay ang modelo.

Karaniwan, ang mga sistema ng paglalarawan ng imahe ay sinanay sa mga set ng data na naglalaman ng mga larawan na sinamahan ng isang tekstuwal na paglalarawan ng mga larawang ito, iyon ay, sa mga hanay ng mga nilagdaang larawan.

"Ipinapakita ng pagsubok sa nocaps kung gaano kahusay na nailalarawan ng system ang mga bagong bagay na hindi nakita sa data ng pagsasanay," sabi ni Wang.

Upang malutas ang problemang ito, ang koponan ng Microsoft ay paunang nagsanay ng isang malaking modelo ng AI sa isang malaking dataset na naglalaman ng mga larawang may word-tag, bawat isa ay nauugnay sa isang partikular na bagay sa larawan.

Ang mga hanay ng larawan na may mga tag ng salita sa halip na mga buong caption ay mas mahusay na gumawa, na nagbibigay-daan sa koponan ni Wang na mag-feed ng maraming data sa kanilang modelo. Ang diskarte na ito ay nagbigay sa modelo kung ano ang tinatawag ng koponan na isang visual na bokabularyo.

Tulad ng ipinaliwanag ni Huang, ang diskarte sa pre-learning gamit ang visual na bokabularyo ay katulad ng paghahanda sa mga bata para sa pagbabasa: una, ang isang picture book ay ginagamit kung saan ang mga indibidwal na salita ay nauugnay sa mga imahe, halimbawa, sa ilalim ng isang larawan ng isang mansanas ay nakasulat na "mansanas" at sa ilalim ng larawan ng isang pusa ay ang salitang "pusa".

"Ang pre-training na ito na may visual na bokabularyo ay, sa esensya, ang paunang edukasyon na kailangan upang sanayin ang sistema. Ito ay kung paano namin sinusubukan na bumuo ng isang uri ng motor memory, "sabi ni Huang.

Ang pre-trained na modelo ay pinipino gamit ang isang dataset kasama ang mga larawang may label. Sa yugtong ito ng pagsasanay, natututo ang modelo na gumawa ng mga pangungusap. Kung lumilitaw ang isang imahe na naglalaman ng mga bagong bagay, ginagamit ng AI system ang visual na diksyunaryo upang lumikha ng mga tumpak na paglalarawan.

"Upang magtrabaho sa mga bagong bagay sa panahon ng pagsubok, isinasama ng system ang natutunan nito sa panahon ng pre-training at sa panahon ng kasunod na pagpipino," sabi ni Wang.
Ayon sa mga resulta pananaliksik, kapag nasuri sa mga pagsusulit sa nocaps, ang AI system ay gumawa ng mas makabuluhan at tumpak na mga paglalarawan kaysa sa ginawa ng mga tao para sa parehong mga larawan.

Mas mabilis na paglipat sa kapaligiran ng pagtatrabaho 

Sa iba pang mga bagay, ang bagong sistema ng paglalarawan ng imahe ay dalawang beses na mas mahusay kaysa sa modelong ginamit sa mga produkto at serbisyo ng Microsoft mula noong 2015, kung ihahambing sa isa pang benchmark sa industriya.

Isinasaalang-alang ang mga benepisyo na matatanggap ng lahat ng mga gumagamit ng mga produkto at serbisyo ng Microsoft mula sa pagpapahusay na ito, pinabilis ni Huang ang pagsasama ng bagong modelo sa kapaligiran ng trabaho ng Azure.

"Dinadala namin ang nakakagambalang teknolohiyang AI na ito sa Azure bilang isang platform upang maghatid ng mas malawak na hanay ng mga customer," sabi niya. "At ito ay hindi lamang isang pambihirang tagumpay sa pananaliksik. Ang oras na kinuha upang maisama ang tagumpay na ito sa kapaligiran ng produksyon ng Azure ay isang tagumpay din."

Idinagdag ni Huang na ang pagkamit ng mga resultang tulad ng tao ay nagpapatuloy sa isang trend na naitatag na sa mga sistema ng cognitive intelligence ng Microsoft.

β€œSa nakalipas na limang taon, nakamit namin ang mga resultang tulad ng tao sa limang pangunahing lugar: sa speech recognition, sa machine translation, sa pagsagot sa mga tanong, sa machine reading at pag-unawa sa text, at sa 2020, sa kabila ng COVID-19, sa paglalarawan ng larawan. ' sabi ni Juan.

Sa paksa

Ihambing ang mga resulta ng paglalarawan ng mga larawan na ibinigay ng system noon at ngayon gamit ang AI

Ang pinakabagong teknolohiya ng Microsoft sa Azure AI ay naglalarawan ng mga larawan pati na rin ang mga tao

Larawan sa kagandahang-loob ng Getty Images. Nakaraang paglalarawan: Close-up ng isang lalaking naghahanda ng hotdog sa isang cutting board. Bagong paglalarawan: Isang lalaki ang gumagawa ng tinapay.

Ang pinakabagong teknolohiya ng Microsoft sa Azure AI ay naglalarawan ng mga larawan pati na rin ang mga tao

Larawan sa kagandahang-loob ng Getty Images. Nakaraang paglalarawan: Isang lalaki ang nakaupo sa paglubog ng araw. Bagong paglalarawan: Bonfire sa beach.

Ang pinakabagong teknolohiya ng Microsoft sa Azure AI ay naglalarawan ng mga larawan pati na rin ang mga tao

Larawan sa kagandahang-loob ng Getty Images. Nakaraang paglalarawan: Isang lalaking naka-asul na kamiseta. Bagong paglalarawan: Maraming tao ang nakasuot ng surgical mask.

Ang pinakabagong teknolohiya ng Microsoft sa Azure AI ay naglalarawan ng mga larawan pati na rin ang mga tao

Larawan sa kagandahang-loob ng Getty Images. Nakaraang paglalarawan: Isang lalaking naka-skateboard ang lumipad sa dingding. Bagong paglalarawan: Isang manlalaro ng baseball ang sumasalo ng bola.

Pinagmulan: www.habr.com

Magdagdag ng komento