Microsofts neueste Technologie in Azure AI beschreibt sowohl Bilder als auch Personen


Microsoft-Forscher haben ein künstliches Intelligenzsystem entwickelt, das Bildunterschriften generieren kann, die sich in vielen Fällen als genauer erweisen als von Menschen gemachte Beschreibungen. Dieser Durchbruch markierte einen wichtigen Meilenstein im Bestreben von Microsoft, seine Produkte und Dienste für alle Benutzer inklusiv und zugänglich zu machen.

„Bildbeschreibung ist eine der Hauptfunktionen von Computer Vision, die eine breite Palette von Diensten ermöglicht“, sagte Xuedong Huang (Xuedong Huang), ein Microsoft Technical Officer und CTO von Azure AI Cognitive Services in Redmond, Washington.

Das neue Modell ist jetzt über Computer Vision für Verbraucher verfügbar Kognitive Azure-Dienste, das Teil von Azure AI ist und es Entwicklern ermöglicht, diese Funktion zu nutzen, um die Verfügbarkeit ihrer Dienste zu verbessern. Es ist auch in der Seeing AI-App enthalten und wird später in diesem Jahr in Microsoft Word und Outlook für Windows und Mac sowie PowerPoint für Windows, Mac und im Web verfügbar sein.

Mit der automatischen Beschreibung können Benutzer auf den wichtigen Inhalt jedes Bildes zugreifen, unabhängig davon, ob es sich um ein in Suchergebnissen zurückgegebenes Foto oder eine Illustration für eine Präsentation handelt.

„Die Verwendung von Bildunterschriften, die den Inhalt von Bildern beschreiben (sog. alternativer oder alternativer Text) auf Webseiten und Dokumenten ist besonders wichtig für blinde oder sehbehinderte Menschen“, sagte Saqib Sheikh (Saqib Scheich), Softwaremanager bei der AI Platform Group von Microsoft in Redmond.

Sein Team nutzt beispielsweise eine verbesserte Bildbeschreibungsfunktion in der App für blinde und sehbehinderte Menschen. AI sehen, das erkennt, was die Kamera aufnimmt und darüber informiert. Die App verwendet generierte Bildunterschriften, um Fotos zu beschreiben, auch in sozialen Medien.

„Idealerweise sollte jeder allen Bildern in Dokumenten, im Web und in sozialen Netzwerken Alternativtext hinzufügen, da dies blinden Menschen den Zugriff auf den Inhalt und die Teilnahme an der Konversation ermöglicht. Aber leider tun die Leute das nicht“, sagt der Scheich. „Es gibt jedoch einige Apps, die die Bildbeschreibungsfunktion nutzen, um alternativen Text hinzuzufügen, wenn dieser fehlt.“
  
Microsofts neueste Technologie in Azure AI beschreibt sowohl Bilder als auch Personen

Liruan Wang, General Manager für Forschung im Redmond Lab von Microsoft, leitete ein Forschungsteam, das menschliche Ergebnisse erzielte und übertraf. Foto: Dan DeLong.

Beschreibung neuer Objekte

„Das Beschreiben von Bildern ist eine der Hauptaufgaben der Computer Vision, die ein künstliches Intelligenzsystem erfordert, um den Hauptinhalt oder die Hauptaktion im Bild zu verstehen und zu beschreiben“, erklärte Liruan Wang (Lijuan Wang), General Manager der Forschung im Redmond-Labor von Microsoft.

„Man muss verstehen, was vor sich geht, die Beziehungen zwischen Objekten und Aktionen herausfinden und dann alles in einem Satz in einer für Menschen lesbaren Sprache zusammenfassen und beschreiben“, sagte sie.

Wang leitete das Forschungsteam, das sich mit Benchmarking beschäftigte Nocaps (Maßstabsbeschriftung neuartiger Objekte, eine groß angelegte Beschreibung neuer Objekte) erzielte ein mit einem Menschen vergleichbares Ergebnis und übertraf es. Mithilfe dieser Tests können Sie bewerten, wie gut KI-Systeme Beschreibungen dargestellter Objekte generieren, die nicht in dem Datensatz enthalten sind, auf dem das Modell trainiert wurde.

Typischerweise werden Bildbeschreibungssysteme auf Datensätze trainiert, die Bilder mit einer Textbeschreibung dieser Bilder enthalten, also auf Sätze signierter Bilder.

„Der Nocaps-Test zeigt, wie gut das System in der Lage ist, neue Objekte zu beschreiben, die in den Trainingsdaten nicht gefunden wurden“, sagt Wang.

Um dieses Problem zu lösen, trainierte das Microsoft-Team vorab ein großes KI-Modell anhand eines großen Datensatzes, der mit Wörtern versehene Bilder enthielt, die jeweils einem bestimmten Objekt im Bild zugeordnet waren.

Bildsätze mit Wort-Tags anstelle vollständiger Bildunterschriften lassen sich effizienter erstellen, sodass Wangs Team viele Daten in sein Modell einspeisen kann. Dieser Ansatz verlieh dem Modell das, was das Team ein visuelles Vokabular nennt.

Wie Huang erklärte, ähnelt der Vorlernansatz mithilfe des visuellen Vokabulars der Vorbereitung von Kindern auf das Lesen: Zunächst wird ein Bilderbuch verwendet, in dem einzelne Wörter mit Bildern verknüpft werden. Beispielsweise steht unter einem Foto eines Apfels „Apfel“. und unter einem Foto einer Katze steht das Wort „Katze“.

„Dieses Vortraining mit visuellem Vokabular ist im Wesentlichen die Grundausbildung, die zum Trainieren des Systems erforderlich ist. Auf diese Weise versuchen wir, eine Art motorisches Gedächtnis zu entwickeln“, sagte Huang.

Das vorab trainierte Modell wird dann mit einem Datensatz einschließlich beschrifteter Bilder verfeinert. In dieser Trainingsphase lernt das Modell, Sätze zu bilden. Wenn ein Bild mit neuen Objekten auftaucht, erstellt das KI-System anhand des visuellen Wörterbuchs genaue Beschreibungen.

„Um beim Testen mit neuen Objekten arbeiten zu können, integriert das System das, was es während des Vortrainings und der anschließenden Verfeinerung gelernt hat“, sagt Wang.
Nach den Ergebnissen ForschungBei der Auswertung der Nocaps-Tests lieferte das KI-System für dieselben Bilder aussagekräftigere und genauere Beschreibungen als Menschen.

Schnellerer Übergang in die Arbeitsumgebung 

Unter anderem ist das neue Bildbeschreibungssystem im Vergleich zu einem anderen Branchen-Benchmark doppelt so gut wie das seit 2015 in Microsoft-Produkten und -Diensten verwendete Modell.

Angesichts der Vorteile, die alle Benutzer von Microsoft-Produkten und -Diensten durch diese Verbesserung erhalten, beschleunigte Huang die Integration des neuen Modells in die Azure-Arbeitsumgebung.

„Wir bringen diese bahnbrechende KI-Technologie zu Azure als Plattform, um ein breiteres Kundenspektrum zu bedienen“, sagte er. „Und das ist nicht nur ein Durchbruch in der Forschung. Auch die Zeit, die es brauchte, um diesen Durchbruch in die Azure-Produktionsumgebung zu integrieren, war ein Durchbruch.“

Huang fügte hinzu, dass das Erreichen menschenähnlicher Ergebnisse einen Trend fortsetze, der bereits in den kognitiven Intelligenzsystemen von Microsoft etabliert sei.

„In den letzten fünf Jahren haben wir in fünf Hauptbereichen menschenähnliche Ergebnisse erzielt: bei der Spracherkennung, bei der maschinellen Übersetzung, bei der Beantwortung von Fragen, beim maschinellen Lesen und Textverstehen und im Jahr 2020, trotz COVID-19, bei der Bildbeschreibung.“ „sagte Juan.

Nach Thema

Vergleichen Sie die Ergebnisse der Beschreibung von Bildern, die das System zuvor und jetzt mithilfe von KI lieferte

Microsofts neueste Technologie in Azure AI beschreibt sowohl Bilder als auch Personen

Foto mit freundlicher Genehmigung von Getty Images. Vorherige Beschreibung: Nahaufnahme eines Mannes, der auf einem Schneidebrett einen Hot Dog zubereitet. Neue Beschreibung: Ein Mann macht Brot.

Microsofts neueste Technologie in Azure AI beschreibt sowohl Bilder als auch Personen

Foto mit freundlicher Genehmigung von Getty Images. Vorherige Beschreibung: Ein Mann sitzt bei Sonnenuntergang. Neue Beschreibung: Lagerfeuer am Strand.

Microsofts neueste Technologie in Azure AI beschreibt sowohl Bilder als auch Personen

Foto mit freundlicher Genehmigung von Getty Images. Vorherige Beschreibung: Ein Mann in einem blauen Hemd. Neue Beschreibung: Mehrere Personen tragen OP-Masken.

Microsofts neueste Technologie in Azure AI beschreibt sowohl Bilder als auch Personen

Foto mit freundlicher Genehmigung von Getty Images. Vorherige Beschreibung: Ein Mann fliegt auf einem Skateboard die Wand hoch. Neue Beschreibung: Ein Baseballspieler fängt einen Ball.

Source: habr.com

Kommentar hinzufügen