微軟在 Azure AI 中的最新技術可以描述圖像和人


微軟研究人員創建了一個人工智能係統,能夠生成圖像說明,在許多情況下,這些說明比人類的描述更準確。 這一突破標誌著 Microsoft 致力於使其產品和服務具有包容性並可供所有用戶訪問的一個重要里程碑。

“圖像描述是計算機視覺的主要功能之一,它使廣泛的服務成為可能,”黃學東說(黃學東),Microsoft 技術官兼 Azure AI 認知服務首席技術官,位於華盛頓州雷德蒙德。

新模型現在可以通過 Computer Vision 提供給消費者,網址為 Azure 認知服務,它是 Azure AI 的一部分,並允許開發人員使用此功能來提高其服務的可用性。 它還包含在 Seeing AI 應用程序中,並將於今年晚些時候在 Windows 和 Mac 的 Microsoft Word 和 Outlook 以及 Windows、Mac 和網絡的 PowerPoint 中提供。

自動描述可幫助用戶訪問任何圖像的重要內容,無論是搜索結果中返回的照片還是演示文稿的插圖。

Saqib Sheikh 說:“在網頁和文檔上使用描述圖像內容的字幕(所謂的替代或替代文本)對於盲人或視障人士尤為重要。”薩吉布·謝赫(Saqib Shaikh)),微軟位於雷德蒙德的 AI 平台組的軟件經理。

例如,他的團隊正在為盲人和視障人士使用應用程序中經過改進的圖像描述功能。 看到AI,它可以識別相機正在拍攝的內容並講述它。 該應用程序使用生成的標題來描述照片,包括在社交媒體上。

“理想情況下,每個人都應該在文檔、網絡、社交網絡上的所有圖像中添加替代文本,因為這可以讓盲人訪問內容並參與對話。 但是,唉,人們不會這樣做,”酋長說。 “但是,有一些應用程序使用圖像描述功能在缺失時添加替代文本。”
  
微軟在 Azure AI 中的最新技術可以描述圖像和人

微軟雷德蒙德實驗室研究部總經理王立軟領導的研究團隊取得併超越了人類的成果。 照片:丹德龍。

新對象的描述

“描述圖像是計算機視覺的主要任務之一,這需要人工智能係統來理解和描述圖像中呈現的主要內容或動作,”Liruan Wang 解釋說(王麗娟),微軟雷德蒙德實驗室研究部總經理。

“你需要了解正在發生的事情,弄清楚物體和動作之間的關係是什麼,然後用人類可讀的語言用一句話總結和描述這一切,”她說。

王帶領的研究團隊,在對標 無上限 (novel object captioning at scale,對新物體的大規模描述)取得了與人類相當的結果,並超越了它。 通過此測試,您可以評估 AI 系統如何生成描述對象的描述,這些描述對象未包含在訓練模型的數據集中。

通常,圖像描述系統是在包含圖像並附有這些圖像的文本描述的數據集上訓練的,即,在簽名圖像集上。

“nocaps 測試表明系統能夠很好地描述訓練數據中未發現的新對象,”Wang 說。

為了解決這個問題,微軟團隊在一個包含單詞標記圖像的大型數據集上預訓練了一個大型 AI 模型,每個圖像都映射到圖像中的特定對象。

帶有文字標籤而不是完整標題的圖像集的創建效率更高,允許 Wang 的團隊將大量數據輸入到他們的模型中。 這種方法為模型提供了團隊所謂的視覺詞彙。

正如Huang解釋的那樣,使用視覺詞彙的預學習方法類似於為孩子準備閱讀:首先使用圖畫書,其中單個單詞與圖像相關聯,例如在蘋果照片下寫下“apple”在一張貓的照片下面是“貓”這個詞。

“這種視覺詞彙的預訓練本質上是訓練系統所需的初始教育。 這就是我們嘗試開發一種運動記憶的方式,”黃說。

然後使用包含標記圖像的數據集改進預訓練模型。 在這個訓練階段,模型學習造句。 如果出現包含新物體的圖像,AI 系統會使用視覺詞典創建準確的描述。

“為了在測試期間處理新對象,系統整合了它在預訓練和後續改進期間學到的東西,”Wang 說。
根據結果 研究,當在 nocaps 測試中進行評估時,AI 系統產生了比人類對相同圖像所做的更有意義和準確的描述。

更快地過渡到工作環境 

除其他外,與另一個行業基準相比,新的圖像描述系統是自 2015 年以來在 Microsoft 產品和服務中使用的模型的兩倍。

考慮到微軟產品和服務的所有用戶將從這一改進中獲得的好處,Huang 加快了將新模型集成到 Azure 工作環境中的速度。

“我們正在將這種顛覆性的人工智能技術帶到 Azure,作為一個平台來為更廣泛的客戶提供服務,”他說。 “這不僅僅是研究上的突破。 將這一突破融入 Azure 生產環境所花費的時間也是一個突破。”

Huang 補充說,實現類似人類的結果延續了微軟認知智能係統中已經確立的趨勢。

“在過去的五年裡,我們在五個主要領域取得了類似人類的成果:語音識別、機器翻譯、回答問題、機器閱讀和文本理解,以及在 2020 年,儘管有 COVID-19,在圖像描述方面’胡安說。

按主題

對比系統之前和現在使用AI給出的圖像描述結果

微軟在 Azure AI 中的最新技術可以描述圖像和人

照片由蓋蒂圖片社提供。 以前的描述:特寫:一名男子在砧板上準備熱狗。 新描述:一個男人做麵包。

微軟在 Azure AI 中的最新技術可以描述圖像和人

照片由蓋蒂圖片社提供。 以前的描述:一個人坐在日落。 新描述:海灘上的篝火。

微軟在 Azure AI 中的最新技術可以描述圖像和人

照片由蓋蒂圖片社提供。 上一個描述:一個身穿藍色襯衫的男人。 新描述:幾個戴著外科口罩的人。

微軟在 Azure AI 中的最新技術可以描述圖像和人

照片由蓋蒂圖片社提供。 上一個描述:一個人騎著滑板飛上了牆。 新描述:棒球運動員接球。

來源: www.habr.com

添加評論