Công nghệ mới nhất của Microsoft trong Azure AI mô tả hình ảnh cũng như con người


Các nhà nghiên cứu của Microsoft đã tạo ra một hệ thống trí tuệ nhân tạo có khả năng tạo chú thích hình ảnh, trong nhiều trường hợp, chính xác hơn mô tả do con người tạo ra. Bước đột phá này đánh dấu một cột mốc quan trọng trong cam kết của Microsoft trong việc làm cho các sản phẩm và dịch vụ của mình trở nên toàn diện và dễ tiếp cận đối với tất cả người dùng.

Xuedong Huang (Tuyết Đông Hoàng), một Cán bộ kỹ thuật của Microsoft và CTO của Azure AI Cognitive Services ở Redmond, Washington.

Mẫu mới hiện đã có sẵn cho người tiêu dùng thông qua Computer Vision tại Dịch vụ nhận thức Azure, là một phần của Azure AI và cho phép các nhà phát triển sử dụng tính năng này để cải thiện tính khả dụng của các dịch vụ của họ. Nó cũng được bao gồm trong ứng dụng See AI và sẽ có sẵn vào cuối năm nay trong Microsoft Word và Outlook cho Windows và Mac, cũng như PowerPoint cho Windows, Mac và trên web.

Mô tả Tự động giúp người dùng truy cập nội dung quan trọng của bất kỳ hình ảnh nào, cho dù đó là ảnh được trả về trong kết quả tìm kiếm hay hình minh họa cho bài thuyết trình.

Saqib Sheikh cho biết: “Việc sử dụng chú thích mô tả nội dung của hình ảnh (được gọi là văn bản thay thế hoặc thay thế) trên các trang web và tài liệu đặc biệt quan trọng đối với người mù hoặc khiếm thị.Saqib Shaikh), Giám đốc phần mềm tại Nhóm nền tảng AI của Microsoft ở Redmond.

Ví dụ: nhóm của anh ấy đang sử dụng tính năng mô tả hình ảnh cải tiến trong ứng dụng dành cho người mù và khiếm thị. Nhìn thấy AI, nhận dạng những gì máy ảnh đang chụp và cho biết về nó. Ứng dụng sử dụng chú thích được tạo để mô tả ảnh, kể cả trên mạng xã hội.

“Tốt nhất, mọi người nên thêm văn bản thay thế vào tất cả các hình ảnh trong tài liệu, trên web, trên mạng xã hội, vì điều này cho phép người khiếm thị truy cập nội dung và tham gia vào cuộc trò chuyện. Nhưng, than ôi, mọi người không làm điều này,” Sheikh nói. "Tuy nhiên, có một vài ứng dụng sử dụng tính năng mô tả hình ảnh để thêm văn bản thay thế khi nó bị thiếu."
  
Công nghệ mới nhất của Microsoft trong Azure AI mô tả hình ảnh cũng như con người

Liruan Wang, tổng giám đốc nghiên cứu tại Phòng thí nghiệm Redmond của Microsoft, đã lãnh đạo một nhóm nghiên cứu đạt được và vượt qua các kết quả của con người. Ảnh: Dan DeLong.

Mô tả đối tượng mới

“Mô tả hình ảnh là một trong những nhiệm vụ chính của thị giác máy tính, đòi hỏi hệ thống trí tuệ nhân tạo phải hiểu và mô tả nội dung hoặc hành động chính được thể hiện trong hình ảnh,” Liruan Wang giải thích (Lệ Quyên Vương), tổng giám đốc nghiên cứu tại phòng thí nghiệm Redmond của Microsoft.

Cô ấy nói: “Bạn cần hiểu điều gì đang xảy ra, tìm ra mối quan hệ giữa các đối tượng và hành động, sau đó tóm tắt và mô tả tất cả trong một câu bằng ngôn ngữ mà con người có thể đọc được.

Wang đã lãnh đạo nhóm nghiên cứu, trong việc đo điểm chuẩn không có giới hạn (chú thích đối tượng mới lạ ở quy mô lớn, mô tả đối tượng mới ở quy mô lớn) đã đạt được kết quả có thể so sánh với con người và vượt qua nó. Thử nghiệm này cho phép bạn đánh giá mức độ hiệu quả của các hệ thống AI tạo ra các mô tả về các đối tượng được mô tả không có trong tập dữ liệu mà mô hình được đào tạo.

Thông thường, các hệ thống mô tả hình ảnh được đào tạo trên các tập dữ liệu chứa hình ảnh kèm theo mô tả bằng văn bản của những hình ảnh này, tức là trên các tập hình ảnh đã ký.

Wang cho biết: “Thử nghiệm nocaps cho thấy hệ thống có thể mô tả các đối tượng mới không tìm thấy trong dữ liệu đào tạo tốt như thế nào.

Để giải quyết vấn đề này, nhóm Microsoft đã đào tạo trước một mô hình AI lớn trên một tập dữ liệu lớn chứa các hình ảnh được gắn thẻ từ, mỗi hình ảnh được ánh xạ tới một đối tượng cụ thể trong hình ảnh.

Bộ ảnh có thẻ từ thay vì chú thích đầy đủ sẽ hiệu quả hơn để tạo, cho phép nhóm của Wang cung cấp nhiều dữ liệu vào mô hình của họ. Cách tiếp cận này đã mang lại cho mô hình cái mà nhóm gọi là từ vựng trực quan.

Như Huang giải thích, phương pháp tiếp cận trước khi học sử dụng từ vựng trực quan tương tự như chuẩn bị cho trẻ đọc: đầu tiên, một cuốn sách tranh được sử dụng trong đó các từ riêng lẻ được liên kết với hình ảnh, ví dụ: dưới bức ảnh quả táo được viết "quả táo" và dưới bức ảnh của một con mèo là từ "cat".

“Việc đào tạo trước với từ vựng trực quan này về cơ bản là giáo dục ban đầu cần thiết để đào tạo hệ thống. Đây là cách chúng tôi cố gắng phát triển một loại trí nhớ vận động,” Huang nói.

Mô hình được đào tạo trước sau đó được tinh chỉnh với tập dữ liệu bao gồm các hình ảnh được gắn nhãn. Ở giai đoạn đào tạo này, người mẫu học cách đặt câu. Nếu một hình ảnh chứa các đối tượng mới xuất hiện, hệ thống AI sẽ sử dụng từ điển hình ảnh để tạo ra các mô tả chính xác.

Wang cho biết: “Để làm việc với các đối tượng mới trong quá trình thử nghiệm, hệ thống sẽ tích hợp những gì đã học được trong quá trình đào tạo trước và trong quá trình tinh chỉnh tiếp theo.
theo như kết quả nghiên cứu, khi được đánh giá trong các bài kiểm tra nocaps, hệ thống AI đã tạo ra các mô tả chính xác và có ý nghĩa hơn so với con người đối với cùng một hình ảnh.

Chuyển đổi nhanh hơn đến môi trường làm việc 

Trong số những thứ khác, hệ thống mô tả hình ảnh mới tốt gấp đôi so với mô hình được sử dụng trong các sản phẩm và dịch vụ của Microsoft kể từ năm 2015, khi so sánh với một tiêu chuẩn ngành khác.

Xem xét những lợi ích mà tất cả người dùng các sản phẩm và dịch vụ của Microsoft sẽ nhận được từ cải tiến này, Huang đã đẩy nhanh việc tích hợp mô hình mới vào môi trường làm việc Azure.

Ông nói: “Chúng tôi đang sử dụng công nghệ AI đột phá này cho Azure như một nền tảng để phục vụ nhiều đối tượng khách hàng hơn. “Và đây không chỉ là một bước đột phá trong nghiên cứu. Thời gian cần thiết để kết hợp bước đột phá này vào môi trường sản xuất Azure cũng là một bước đột phá.”

Huang nói thêm rằng việc đạt được kết quả giống con người tiếp tục là xu hướng đã được thiết lập trong các hệ thống trí tuệ nhận thức của Microsoft.

“Trong 2020 năm qua, chúng tôi đã đạt được những kết quả giống con người trong 19 lĩnh vực chính: nhận dạng giọng nói, dịch máy, trả lời câu hỏi, đọc máy và hiểu văn bản, và vào năm XNUMX, bất chấp COVID-XNUMX, trong mô tả hình ảnh ' Juan nói.

Theo chủ đề

So sánh kết quả mô tả hình ảnh mà hệ thống đưa ra trước đây và hiện tại bằng AI

Công nghệ mới nhất của Microsoft trong Azure AI mô tả hình ảnh cũng như con người

Hình ảnh lịch sự của Getty Images. Mô tả trước: Cận cảnh một người đàn ông đang chuẩn bị xúc xích trên thớt. Mô tả mới: Một người đàn ông làm bánh mì.

Công nghệ mới nhất của Microsoft trong Azure AI mô tả hình ảnh cũng như con người

Hình ảnh lịch sự của Getty Images. Mô tả trước: Một người đàn ông đang ngồi lúc hoàng hôn. Mô tả mới: Lửa trại trên bãi biển.

Công nghệ mới nhất của Microsoft trong Azure AI mô tả hình ảnh cũng như con người

Hình ảnh lịch sự của Getty Images. Mô tả trước: Một người đàn ông mặc áo xanh. Mô tả mới: Một số người đeo mặt nạ phẫu thuật.

Công nghệ mới nhất của Microsoft trong Azure AI mô tả hình ảnh cũng như con người

Hình ảnh lịch sự của Getty Images. Mô tả trước: Một người đàn ông trên ván trượt bay lên tường. Mô tả mới: Một cầu thủ bóng chày bắt bóng.

Nguồn: www.habr.com

Thêm một lời nhận xét