Microsoft'тун Azure AIдеги эң акыркы технологиясы сүрөттөрдү, ошондой эле адамдарды сүрөттөйт


Майкрософттун изилдөөчүлөрү жасалма интеллект системасын түзүштү, ал көптөгөн учурларда адамдын сүрөттөмөсүнө караганда так болгон сүрөттөрдүн коштомо жазууларын түзө алат. Бул ачылыш Microsoftтун өзүнүн өнүмдөрүн жана кызматтарын бардык колдонуучулар үчүн инклюзивдик жана жеткиликтүү кылуу боюнча милдеттенмесиндеги негизги этапты белгилейт.

"Сүрөттүн сүрөттөлүшү компьютердик көрүүнүн негизги функцияларынын бири болуп саналат, ал кызматтардын кеңири спектрин камсыз кылат" деди Сюдонг Хуанг (Xuedong Huang), Microsoft'тун техникалык кызматкери жана Redmond, Вашингтондогу Azure AI Когнитивдик Кызматтарынын башкы технология кызматкери.

Жаңы модель азыр керектөөчүлөргө Computer Vision дареги аркылуу жеткиликтүү Azure Когнитивдик Кызматтары, Azure AIнин бир бөлүгү болуп саналат жана иштеп чыгуучуларга кызматтарынын жеткиликтүүлүгүн жакшыртуу үчүн бул мүмкүнчүлүктү колдонууга мүмкүндүк берет. Ал ошондой эле Seeing AI колдонмосуна киргизилген жана ушул жылдын аягында Windows жана Mac үчүн Microsoft Word жана Outlook, ошондой эле Windows, Mac жана веб үчүн PowerPointте ишке кирет.

Автоматтык сүрөттөмө колдонуучуларга издөө жыйынтыгында кайтарылган сүрөт болобу же презентация үчүн иллюстрация болобу, каалаган сүрөттүн маанилүү мазмунуна жетүүгө жардам берет.

"Веб-баракчалардагы жана документтердеги сүрөттөрдүн мазмунун (альтернативдик же башка текст деп аталат) сүрөттөгөн коштомо жазууларды колдонуу сокур же көрүүсү начар адамдар үчүн өзгөчө маанилүү" деди Сакиб Шейх (Сакиб Шайх), Редмонддогу Microsoftтун AI Platforms тобунда программалык камсыздоо менеджери.

Мисалы, анын командасы азиздер жана көрүүсү начар адамдар үчүн колдонмодогу жакшыртылган сүрөттөлүш функциясын колдонууда AI көрүү, камера эмне тартып жатканын таанып, ал жөнүндө сүйлөшөт. Колдонмо сүрөттөрдү, анын ичинде социалдык тармактарда сүрөттөө үчүн түзүлгөн коштомо жазууларды колдонот.

«Идеалында, ар бир адам документтердеги, онлайндагы жана социалдык медиадагы бардык сүрөттөргө альтернативдик текстти кошушу керек, анткени бул азиз адамдарга мазмунга кирүүгө жана сүйлөшүүгө катышууга мүмкүндүк берет. Бирок, тилекке каршы, адамдар муну жасашпайт, - дейт шейх. "Бирок, эч бири жок болгон учурда альтернативдүү текстти кошуу үчүн сүрөттүн сүрөттөмөсүн колдонгон бир нече колдонмолор бар."
  
Microsoft'тун Azure AIдеги эң акыркы технологиясы сүрөттөрдү, ошондой эле адамдарды сүрөттөйт

Майкрософттун Редмонд лабораториясынын улук изилдөө менеджери Лижуан Ванг адамдыкындай жана жакшы натыйжаларга жетишкен изилдөө тобун жетектеген. Сүрөт: Дэн ДеЛонг.

Жаңы объекттердин сүрөттөлүшү

"Сүрөттүн сүрөттөлүшү компьютердик көрүүнүн негизги милдеттеринин бири болуп саналат, ал сүрөттө көрсөтүлгөн негизги мазмунду же аракетти түшүнүү жана сүрөттөө үчүн жасалма интеллект системасын талап кылат" деп түшүндүрдү Лижуан Ванг (Лижуан Ванг), Microsoft компаниясынын Редмонд лабораториясынын улук изилдөө менеджери.

"Сиз эмне болуп жатканын түшүнүп, объекттер менен аракеттердин ортосунда кандай байланыш бар экенин түшүнүшүңүз керек, анан мунун баарын жалпылап, адам түшүнө турган тилде сүйлөм менен сүрөттөшүңүз керек" деди ал.

Ванг изилдөө тобун жетектеген nocaps (масштаб боюнча роман объектисин жазуу, жаңы объектилерди масштабдуу сүрөттөө) адамдыкына окшош натыйжаларга жетишти жана алардан ашып кетти. Бул тестирлөө AI системалары моделди үйрөткөн маалымат топтомуна кирбеген сүрөттөлгөн объекттердин сүрөттөмөсүн канчалык деңгээлде жаратарын баалайт.

Эреже катары, сүрөттөлүштү сыпаттоо системалары бул сүрөттөрдүн тексттик сыпаттамалары менен коштолгон сүрөттөрдү камтыган маалымат топтомдорунда, башкача айтканда, этикеткаланган сүрөттөрдүн топтомдорунда окутулат.

"Nocaps тести система машыгуу маалыматтарында кездешпеген жаңы объекттерди канчалык жакшы сүрөттөй аларын көрсөтөт" дейт Ванг.

Бул көйгөйдү чечүү үчүн Microsoft командасы ар бири сүрөттөгү белгилүү бир объект менен байланышкан сөз теги менен сүрөттөрдү камтыган кеңири маалымат топтомунда чоң AI моделин алдын ала үйрөткөн.

Толук коштомо жазуулардын ордуна сөз теги менен сүрөттөрдүн топтомун түзүү натыйжалуураак болду, бул Вангдын командасына моделине көп маалыматтарды киргизүүгө мүмкүндүк берди. Бул ыкма модельге команда визуалдык лексика деп атаган нерсени берди.

Хуан түшүндүргөндөй, визуалдык лексиканы алдын ала окутуу ыкмасы балдарды окууга даярдоого окшош: Биринчиден, сүрөттүү китеп колдонулат, анда жеке сөздөр сүрөттөр менен байланыштырылат, мисалы, алманын сүрөтүнүн астында "алма" деп айтылат жана мышыктын сүрөтүнүн астында "мышык" деген сөз.

«Визуалдык сөздүк менен бул алдын ала окутуу системаны окутуу үчүн зарыл болгон баштапкы билим болуп саналат. Мына ушинтип биз мотордук эстутумдун бир түрүн өнүктүрүүгө аракет кылабыз», - деди Хуанг.

Алдын ала даярдалган модель андан кийин коштомо сүрөттөрдү камтыган маалымат топтомун колдонуу менен такталган. Тренингдин бул этабында модель сүйлөмдөрдү түзүүгө үйрөнөт. Жаңы объекттерди камтыган сүрөт пайда болсо, AI системасы так сүрөттөмөлөрдү түзүү үчүн визуалдык сөздүктү колдонот.

"Тестирлөө учурунда жаңы объектилер менен күрөшүү үчүн система машыгууга чейинки жана кийинки иштеп чыгуу учурунда үйрөнгөн нерселерин бириктирет" дейт Ванг.
Жыйынтыктар боюнча изилдөөNocaps тесттеринде бааланганда, AI системасы адамдар бир эле сүрөттөр үчүн жасаганга караганда көбүрөөк маңыздуу жана так сүрөттөмөлөрдү чыгарган.

Жумушчу чөйрөгө тездетилген өтүү 

Башка нерселер менен катар, жаңы сүрөттү сыпаттоо системасы башка тармактык эталонго ылайык, 2015-жылдан бери Microsoft продуктыларында жана кызматтарында колдонулган моделден эки эсе жакшы.

Бул жакшыртуудан Microsoft өнүмдөрү менен кызматтарынын бардык колдонуучулары ала турган артыкчылыктарды эске алуу менен, Хуанг жаңы моделдин Azure иш тактасынын чөйрөсүнө интеграциясын тездетти.

"Биз Azure AI технологиясын кардарлардын кеңири спектрин тейлөө үчүн платформа катары алып жатабыз" деди ал. «Ал эми бул изилдөөдө гана эмес. Бул жетишкендикти Azure өндүрүш чөйрөсүнө киргизүүгө кеткен убакыт да ачылыш болду.

Хуанг кошумчалагандай, адамга окшош натыйжаларга жетишүү Microsoftтун когнитивдик интеллект системаларында калыптанып калган тенденцияны улантууда.

"Акыркы беш жылдын ичинде биз беш негизги багытта адам деңгээлинде натыйжаларга жетиштик: кепти таануу, машиналык которуу, суроолорго жооп берүү, машина менен окуу жана текстти түшүнүү, ал эми 2020-жылы, COVID-19га карабастан, сүрөттүн сүрөттөлүшү "деди Хуан.

тема боюнча

Система мурун жана азыр AI колдонуп берген сүрөттөрдүн сүрөттөмөлөрүнүн натыйжаларын салыштырыңыз

Microsoft'тун Azure AIдеги эң акыркы технологиясы сүрөттөрдү, ошондой эле адамдарды сүрөттөйт

Getty Images китепканасынан алынган сүрөт. Мурунку сүрөттөмө: Кесүүчү тактада хот-дог бышырып жаткан адамдын жакынкы планы. Жаңы сүрөттөмө: Адам нан жасайт.

Microsoft'тун Azure AIдеги эң акыркы технологиясы сүрөттөрдү, ошондой эле адамдарды сүрөттөйт

Getty Images китепканасынан алынган сүрөт. Мурунку сүрөттөмө: Күн батканда бир киши отурат. Жаңы сүрөттөмө: Пляждагы от.

Microsoft'тун Azure AIдеги эң акыркы технологиясы сүрөттөрдү, ошондой эле адамдарды сүрөттөйт

Getty Images китепканасынан алынган сүрөт. Мурунку сүрөттөмө: Көк көйнөкчөн адам. Жаңы сүрөттөмө: Хирургиялык беткап кийген бир нече адам.

Microsoft'тун Azure AIдеги эң акыркы технологиясы сүрөттөрдү, ошондой эле адамдарды сүрөттөйт

Getty Images китепканасынан алынган сүрөт. Мурунку сүрөттөмө: скейтборд тээп бараткан адам дубалды көздөй учуп баратат. Жаңы сүрөттөмө: Бейсбол оюнчусу топту кармап алды.

Source: www.habr.com

Комментарий кошуу