Najnowsza technologia firmy Microsoft w Azure AI opisuje obrazy, jak również ludzi


Badacze Microsoftu stworzyli system sztucznej inteligencji zdolny do generowania podpisów obrazów, które w wielu przypadkach okazują się dokładniejsze niż opisy sporządzone przez ludzi. Ten przełom był kamieniem milowym w dążeniu firmy Microsoft do uczynienia swoich produktów i usług integracyjnymi i dostępnymi dla wszystkich użytkowników.

„Opis obrazu jest jedną z głównych funkcji wizji komputerowej, która umożliwia szeroki zakres usług”, powiedział Xuedong Huang (Xuedong Huanga), dyrektor techniczny firmy Microsoft i dyrektor ds. technologii Azure AI Cognitive Services w Redmond w stanie Waszyngton.

Nowy model jest już dostępny dla konsumentów za pośrednictwem Computer Vision pod adresem Usługi kognitywne Azure, która jest częścią Azure AI i umożliwia programistom korzystanie z tej funkcji w celu poprawy dostępności ich usług. Jest również dołączany do aplikacji Seeing AI i będzie dostępny jeszcze w tym roku w Microsoft Word i Outlook dla Windows i Mac, a także PowerPoint dla Windows, Mac i w Internecie.

Autoopis pomaga użytkownikom uzyskać dostęp do ważnych treści dowolnego obrazu, niezależnie od tego, czy jest to zdjęcie zwracane w wynikach wyszukiwania, czy ilustracja do prezentacji.

„Używanie podpisów opisujących zawartość obrazów (tzw. tekst alternatywny lub alternatywny) na stronach internetowych i dokumentach jest szczególnie ważne dla osób niewidomych lub niedowidzących” — powiedział Saqib Sheikh (Saqib Szejk), Software Manager w Microsoft AI Platform Group w Redmond.

Na przykład jego zespół korzysta z ulepszonej funkcji opisu obrazu w aplikacji dla osób niewidomych i niedowidzących. Widząc sztuczną inteligencję, który rozpoznaje, co rejestruje kamera i opowiada o tym. Aplikacja wykorzystuje wygenerowane podpisy do opisywania zdjęć, w tym w mediach społecznościowych.

„W idealnym przypadku każdy powinien dodawać tekst alternatywny do wszystkich obrazów w dokumentach, w Internecie, na portalach społecznościowych, ponieważ umożliwia to osobom niewidomym dostęp do treści i wzięcie udziału w rozmowie. Ale niestety ludzie tego nie robią” – mówi szejk. „Istnieje jednak kilka aplikacji, które używają funkcji opisu obrazu, aby dodać alternatywny tekst, gdy go brakuje”.
  
Najnowsza technologia firmy Microsoft w Azure AI opisuje obrazy, jak również ludzi

Liruan Wang, dyrektor generalny badań w Microsoft Redmond Lab, kierował zespołem badawczym, który osiągnął i przewyższył wyniki ludzi. Zdjęcie: Dan DeLong.

Opis nowych obiektów

„Opisywanie obrazów jest jednym z głównych zadań widzenia komputerowego, które wymaga systemu sztucznej inteligencji, aby zrozumieć i opisać główną treść lub akcję przedstawioną na obrazie” — wyjaśnił Liruan Wang (Lijuana Wanga), dyrektor generalny badań w laboratorium Microsoftu w Redmond.

„Musisz zrozumieć, co się dzieje, dowiedzieć się, jakie są relacje między przedmiotami i działaniami, a następnie podsumować i opisać to wszystko w zdaniu w języku zrozumiałym dla człowieka” – powiedziała.

Wang kierował zespołem badawczym zajmującym się benchmarkingiem nokapy (napisy nowych obiektów w skali, wielkoskalowy opis nowych obiektów) osiągnął wynik porównywalny z ludzkim, a nawet go przewyższył. To testowanie pozwala ocenić, jak dobrze systemy AI generują opisy przedstawionych obiektów, które nie znajdują się w zbiorze danych, na którym szkolono model.

Zazwyczaj systemy opisu obrazów są uczone na zestawach danych, które zawierają obrazy wraz z tekstowym opisem tych obrazów, czyli na zestawach podpisanych obrazów.

„Test nocaps pokazuje, jak dobrze system jest w stanie opisać nowe obiekty, których nie ma w danych treningowych”, mówi Wang.

Aby rozwiązać ten problem, zespół firmy Microsoft wstępnie wytrenował duży model sztucznej inteligencji na dużym zbiorze danych zawierającym obrazy oznaczone słowami, z których każdy jest powiązany z określonym obiektem na obrazie.

Tworzenie zestawów obrazów ze znacznikami słownymi zamiast pełnych podpisów jest bardziej wydajne, co pozwala zespołowi Wanga wprowadzić do modelu wiele danych. Takie podejście dało modelowi coś, co zespół nazywa słownictwem wizualnym.

Jak wyjaśnił Huang, podejście poprzedzające naukę z użyciem słownictwa wizualnego jest podobne do przygotowania dzieci do czytania: najpierw używa się książki z obrazkami, w której poszczególne słowa są powiązane z obrazami, na przykład pod zdjęciem jabłka jest napisane „jabłko” a pod zdjęciem kota jest słowo „kot”.

„To wstępne szkolenie ze słownictwem wizualnym jest w istocie początkową edukacją potrzebną do wyszkolenia systemu. W ten sposób staramy się rozwinąć coś w rodzaju pamięci motorycznej” – powiedział Huang.

Wstępnie wytrenowany model jest następnie udoskonalany za pomocą zestawu danych, w tym obrazów z etykietami. Na tym etapie szkolenia model uczy się układać zdania. Jeśli pojawi się obraz zawierający nowe obiekty, system AI korzysta ze słownika wizualnego do tworzenia dokładnych opisów.

„Aby pracować z nowymi obiektami podczas testowania, system integruje to, czego nauczył się podczas wstępnego szkolenia i podczas późniejszego udoskonalania” — mówi Wang.
Zgodnie z wynikami Badania, oceniając w testach nocaps, system sztucznej inteligencji tworzył bardziej znaczące i dokładne opisy niż ludzie dla tych samych obrazów.

Szybsze przejście do środowiska pracy 

Między innymi nowy system opisu obrazu jest dwukrotnie lepszy od modelu stosowanego w produktach i usługach Microsoftu od 2015 roku w porównaniu z innym branżowym benchmarkiem.

Biorąc pod uwagę korzyści, jakie z tego ulepszenia odniosą wszyscy użytkownicy produktów i usług Microsoft, Huang przyspieszył integrację nowego modelu ze środowiskiem pracy Azure.

„Przenosimy tę przełomową technologię sztucznej inteligencji na platformę Azure jako platformę służącą szerszemu gronu klientów” — powiedział. „I to nie tylko przełom w badaniach. Przełomem był również czas potrzebny na włączenie tego przełomu do środowiska produkcyjnego Azure”.

Huang dodał, że osiąganie wyników zbliżonych do ludzkich jest kontynuacją trendu już ustalonego w systemach inteligencji kognitywnej Microsoftu.

„W ciągu ostatnich pięciu lat osiągnęliśmy wyniki zbliżone do ludzkich w pięciu głównych obszarach: rozpoznawanie mowy, tłumaczenie maszynowe, odpowiadanie na pytania, czytanie maszynowe i rozumienie tekstu, a w 2020 r., pomimo COVID-19, opis obrazu — powiedział Juan.

Tematycznie

Porównaj wyniki opisu obrazów, które system podawał wcześniej i teraz przy użyciu AI

Najnowsza technologia firmy Microsoft w Azure AI opisuje obrazy, jak również ludzi

Zdjęcie dzięki uprzejmości Getty Images. Poprzedni opis: Zbliżenie mężczyzny przygotowującego hot doga na desce do krojenia. Nowy opis: Mężczyzna robi chleb.

Najnowsza technologia firmy Microsoft w Azure AI opisuje obrazy, jak również ludzi

Zdjęcie dzięki uprzejmości Getty Images. Poprzedni opis: Mężczyzna siedzi o zachodzie słońca. Nowy opis: Ognisko na plaży.

Najnowsza technologia firmy Microsoft w Azure AI opisuje obrazy, jak również ludzi

Zdjęcie dzięki uprzejmości Getty Images. Poprzedni opis: Mężczyzna w niebieskiej koszuli. Nowy opis: Kilka osób w maskach chirurgicznych.

Najnowsza technologia firmy Microsoft w Azure AI opisuje obrazy, jak również ludzi

Zdjęcie dzięki uprzejmości Getty Images. Poprzedni opis: Mężczyzna na deskorolce leci po ścianie. Nowy opis: Bejsbolista łapie piłkę.

Źródło: www.habr.com

Dodaj komentarz