Нова технологія Microsoft, що з'явилася в Azure AI, описує зображення так само добре, як і люди


Дослідники з Microsoft створили систему штучного інтелекту, здатну генерувати підписи до зображень, які у багатьох випадках виявляються точнішими за описи, зроблені людьми. Цей прорив став важливою віхою у прагненні Microsoft зробити свої продукти та послуги інклюзивними та доступними для всіх користувачів.

"Опис зображень - одна з основних функцій комп'ютерного зору, яка робить можливою роботу широкого спектра сервісів", - сказав Сюедун Хуан (Сюедун Хуан), технічний співробітник Microsoft та головний технічний директор Azure AI Cognitive Services у Редмонді (штат Вашингтон).

Нова модель тепер доступна споживачам через Computer Vision Когнітивні служби Azure, що є частиною Azure AI, і дозволяє розробникам використовувати цю можливість для покращення доступності своїх сервісів. Вона також включається до програми Seeing AI і наприкінці цього року почне працювати в Microsoft Word та Outlook для Windows та Mac, а також у PowerPoint для Windows, Mac та у веб-версії.

Автоматичний опис допомагає користувачам отримати доступ до важливого вмісту будь-якого зображення, будь то фотографія, повернена в результатах пошуку, або ілюстрація для презентації.

«Використання підписів, що описують вміст зображень (так званий альтернативний або заміщаючий текст), на веб-сторінках і в документах особливо важливе для незрячих або людей з вадами зору», – зазначив Сакіб Шейх (Сакіб Шейх), менеджер з програмного забезпечення у групі платформ AI Microsoft у Редмонді.

Наприклад, його команда використовує покращену функцію опису зображень у додатку для незрячих і людей, які погано бачать Бачачи AI, що розпізнає те, що знімає камера, і розповідає про це. Додаток використовує підписи, що генеруються, щоб описувати фотографії, у тому числі в соціальних мережах.

«В ідеалі всім слід додавати альтернативний текст для всіх зображень у документах, в Інтернеті, у соціальних мережах, оскільки це дозволяє незрячим людям отримати доступ до вмісту та взяти участь у розмові. Але, на жаль, люди цього не роблять, – каже Шейх. — Проте є кілька програм, які використовують функцію опису зображень, щоб додавати альтернативний текст, коли він відсутній».
  
Нова технологія Microsoft, що з'явилася в Azure AI, описує зображення так само добре, як і люди

Ліжуань Ван, головний менеджер з досліджень лабораторії Microsoft в Редмонді, керувала дослідницькою групою, яка досягла результату, порівнянного з людським, і перевершила його. Фото: Dan DeLong.

Опис нових об'єктів

"Опис зображень - одне з основних завдань комп'ютерного зору, яка вимагає наявності системи штучного інтелекту, що дозволяє зрозуміти і описати основний зміст або дію, представлену в зображенні", - пояснила Ліжуань Ван.Lijuan Wang), головний менеджер з досліджень лабораторії Microsoft у Редмонді.

«Потрібно зрозуміти, що відбувається, з'ясувати, які стосунки між об'єктами та діями, а потім узагальнити та описати все це у реченні зрозумілою людині мовою», — сказала вона.

Ван керувала дослідницькою групою, яка у еталонному тестуванні nocaps (novel object captioning at scale, масштабний опис нових об'єктів) досягла результату, порівнянного з людським, і перевершила його. Це тестування дозволяє оцінити, наскільки добре системи ІІ генерують опис зображених об'єктів, що не входять до набору даних, на основі якого навчалася модель.

Зазвичай системи опису зображень навчаються на наборах даних, які містять зображення, що супроводжуються текстовим описом цих зображень, тобто набори підписаних зображень.

"Тест nocaps показує, наскільки добре система здатна описати нові об'єкти, які не зустрічаються в навчальних даних", - говорить Ван.

Щоб вирішити це завдання, команда Microsoft попередньо навчила велику модель ІІ на великому наборі даних, що містить зображення зі словесними тегами, кожен із яких було зіставлено з певним об'єктом на зображенні.

Набори зображень із словесними тегами замість повних підписів створювати ефективніше, це дозволило команді Ван ввести у свою модель багато даних. Завдяки такому підходу, модель отримала те, що команда називає візуальним словником.

Як пояснив Хуан, підхід до попереднього навчання з використанням візуального словника схожий на підготовку дітей до читання: спочатку використовується книжка з картинками, де окремі слова асоціюються із зображеннями, наприклад, під фотографією яблука написано «яблуко», а під фотографією кішки — слово « кішка».

«Така попередня підготовка за допомогою візуального словника, по суті, є початковою освітою, необхідною для навчання системи. Тож ми намагаємося напрацювати своєрідну моторну пам'ять», — сказав Хуан.

Модель, що пройшла попереднє навчання, потім допрацьовується за допомогою набору даних, що включає підписані зображення. На цьому етапі навчання модель вчиться складати речення. Якщо з'являється зображення, що містить нові об'єкти, система ІІ використовує візуальний словник для створення точних описів.

«Для роботи з новими об'єктами під час тестування система об'єднує те, чого навчилася під час попереднього навчання та під час подальшого доопрацювання», — каже Ван.
Згідно з результатами дослідження, При оцінці на тестах nocaps система ІІ створювала більш змістовні та точні описи, ніж це робили люди для тих самих зображень.

Прискорений перехід у робоче оточення 

Крім усього іншого, нова система опису зображень вдвічі краща, ніж модель, яка використовується в продуктах і службах Microsoft з 2015 року, в порівнянні з іншим галузевим еталоном.

Враховуючи переваги, які отримають усі користувачі продуктів та послуг Microsoft від цього покращення, Хуан прискорив інтеграцію нової моделі у навколишнє середовище Azure.

«Ми беремо цю проривну технологію ІІ на Azure як платформу для обслуговування ширшого кола клієнтів, — сказав він. — І це прорив не лише у дослідженнях. Час, який знадобився, щоб включити цей прорив у робоче оточення Azure, теж став проривом».

Хуан додав, що досягнення результатів, які можна порівняти з людськими, продовжує тенденцію, що вже склалася в когнітивних інтелектуальних системах Microsoft.

«За останні п'ять років ми досягли порівнянних з людськими результатів у п'яти великих областях: у розпізнаванні мови, у машинному перекладі, у відповідях на питання, у машинному читанні та розумінні тексту, а у 2020 році, незважаючи на COVID-19, в описі зображень », - сказав Хуан.

По темі

Порівняйте результати опису зображень, які давала система раніше і зараз за допомогою ІІ

Нова технологія Microsoft, що з'явилася в Azure AI, описує зображення так само добре, як і люди

Фото з бібліотеки Getty Images. Попередній опис: Закри людини, що готує хот-дог на обробна дошка. Новий опис: Людина робить хліб.

Нова технологія Microsoft, що з'явилася в Azure AI, описує зображення так само добре, як і люди

Фото з бібліотеки Getty Images. Попередній опис: Людина сидить на заході сонця. Новий опис: Багаття на пляжі.

Нова технологія Microsoft, що з'явилася в Azure AI, описує зображення так само добре, як і люди

Фото з бібліотеки Getty Images. Попередній опис: Чоловік у блакитній сорочці. Новий опис: Кілька людей у ​​хірургічних масках.

Нова технологія Microsoft, що з'явилася в Azure AI, описує зображення так само добре, як і люди

Фото з бібліотеки Getty Images. Попередній опис: чоловік на скейтборді злітає вгору по стіні. Новий опис: бейсболіст ловить м'яч.

Джерело: habr.com

Додати коментар або відгук