เทคโนโลยีล่าสุดของ Microsoft ใน Azure AI อธิบายภาพและผู้คน


นักวิจัยของไมโครซอฟต์ได้สร้างระบบปัญญาประดิษฐ์ที่สามารถสร้างคำบรรยายภาพที่แม่นยำกว่าคำอธิบายที่มนุษย์สร้างขึ้นในหลายกรณี ความก้าวหน้านี้เป็นก้าวสำคัญในความมุ่งมั่นของ Microsoft ในการทำให้ผลิตภัณฑ์และบริการของตนครอบคลุมและเข้าถึงได้สำหรับผู้ใช้ทุกคน

“คำอธิบายภาพเป็นหนึ่งในหน้าที่หลักของการมองเห็นด้วยคอมพิวเตอร์ ซึ่งทำให้สามารถให้บริการได้หลากหลาย” Xuedong Huang กล่าว (เสว่ตง หวง) เจ้าหน้าที่ด้านเทคนิคของ Microsoft และ CTO ของ Azure AI Cognitive Services ในเรดมันด์ วอชิงตัน

ผู้บริโภครุ่นใหม่มีวางจำหน่ายแล้วผ่าน Computer Vision ที่ บริการความรู้ความเข้าใจ Azureซึ่งเป็นส่วนหนึ่งของ Azure AI และอนุญาตให้นักพัฒนาใช้คุณลักษณะนี้เพื่อปรับปรุงความพร้อมใช้งานของบริการของตน นอกจากนี้ยังรวมอยู่ในแอป Seeing AI และจะพร้อมใช้งานใน Microsoft Word และ Outlook สำหรับ Windows และ Mac ในปลายปีนี้ ตลอดจน PowerPoint สำหรับ Windows, Mac และบนเว็บ

คำอธิบายอัตโนมัติช่วยให้ผู้ใช้เข้าถึงเนื้อหาสำคัญของรูปภาพ ไม่ว่าจะเป็นรูปภาพที่แสดงในผลการค้นหาหรือภาพประกอบสำหรับงานนำเสนอ

“การใช้คำบรรยายที่อธิบายเนื้อหาของรูปภาพ (ที่เรียกว่าข้อความทางเลือกหรือข้อความทางเลือก) บนหน้าเว็บและเอกสารมีความสำคัญอย่างยิ่งสำหรับคนตาบอดหรือผู้พิการทางสายตา” Saqib Sheikh กล่าว (ซากิบ ชัยคฺ) ผู้จัดการซอฟต์แวร์ที่ Microsoft's AI Platform Group ใน Redmond

ตัวอย่างเช่น ทีมของเขากำลังใช้ฟีเจอร์คำอธิบายรูปภาพที่ได้รับการปรับปรุงในแอปสำหรับคนตาบอดและผู้พิการทางสายตา เห็น AIซึ่งจดจำสิ่งที่กล้องกำลังจับภาพและบอกเกี่ยวกับสิ่งนั้น แอพนี้ใช้คำอธิบายภาพที่สร้างขึ้นเพื่ออธิบายภาพถ่าย รวมถึงบนโซเชียลมีเดีย

“ตามหลักการแล้ว ทุกคนควรเพิ่มข้อความแสดงแทนลงในรูปภาพทั้งหมดในเอกสาร บนเว็บ หรือบนโซเชียลเน็ตเวิร์ก เพราะจะทำให้คนตาบอดสามารถเข้าถึงเนื้อหาและมีส่วนร่วมในการสนทนาได้ แต่อนิจจาผู้คนไม่ทำเช่นนี้” ชีคกล่าว "อย่างไรก็ตาม มีบางแอปที่ใช้คุณลักษณะคำอธิบายรูปภาพเพื่อเพิ่มข้อความแสดงแทนเมื่อไม่มี"
  
เทคโนโลยีล่าสุดของ Microsoft ใน Azure AI อธิบายภาพและผู้คน

Liruan Wang ผู้จัดการทั่วไปฝ่ายวิจัยของ Redmond Lab ของ Microsoft นำทีมวิจัยที่ประสบความสำเร็จและเหนือกว่าผลลัพธ์ของมนุษย์ ภาพถ่าย: “Dan DeLong”

คำอธิบายของวัตถุใหม่

“การอธิบายภาพเป็นหนึ่งในภารกิจหลักของการมองเห็นด้วยคอมพิวเตอร์ ซึ่งต้องใช้ระบบปัญญาประดิษฐ์เพื่อทำความเข้าใจและอธิบายเนื้อหาหรือการกระทำหลักที่นำเสนอในภาพ” Liruan Wang อธิบาย (ลี่จวน หวัง) ผู้จัดการทั่วไปฝ่ายวิจัยของ Microsoft's Redmond lab

“คุณต้องเข้าใจว่าเกิดอะไรขึ้น ค้นหาว่าความสัมพันธ์ระหว่างวัตถุกับการกระทำเป็นอย่างไร จากนั้นสรุปและอธิบายทั้งหมดเป็นประโยคในภาษาที่มนุษย์อ่านได้” เธอกล่าว

วังนำทีมวิจัยซึ่งในการเปรียบเทียบ ไม่มีแคป (คำอธิบายภาพวัตถุใหม่ตามสเกล คำอธิบายขนาดใหญ่ของวัตถุใหม่) บรรลุผลลัพธ์ที่เทียบเคียงได้กับมนุษย์ และเหนือกว่าสิ่งนั้น การทดสอบนี้ช่วยให้คุณประเมินได้ว่าระบบ AI สร้างคำอธิบายของวัตถุที่แสดงซึ่งไม่รวมอยู่ในชุดข้อมูลที่โมเดลได้รับการฝึกอบรมได้ดีเพียงใด

โดยทั่วไป ระบบคำอธิบายรูปภาพจะได้รับการฝึกอบรมในชุดข้อมูลที่มีรูปภาพพร้อมกับคำอธิบายที่เป็นข้อความของรูปภาพเหล่านี้ นั่นคือ ในชุดรูปภาพที่มีลายเซ็น

“การทดสอบ nocaps แสดงให้เห็นว่าระบบสามารถอธิบายวัตถุใหม่ที่ไม่พบในข้อมูลการฝึกอบรมได้ดีเพียงใด” Wang กล่าว

เพื่อแก้ปัญหานี้ ทีมงานของ Microsoft ได้ฝึกแบบจำลอง AI ขนาดใหญ่ไว้ล่วงหน้าในชุดข้อมูลขนาดใหญ่ที่มีรูปภาพที่ติดแท็กคำ ซึ่งแต่ละชุดจะเชื่อมโยงกับวัตถุเฉพาะในรูปภาพ

ชุดรูปภาพที่มีแท็กคำแทนคำอธิบายแบบเต็มจะมีประสิทธิภาพมากกว่าในการสร้าง ทำให้ทีมของ Wang สามารถป้อนข้อมูลจำนวนมากลงในโมเดลของตนได้ วิธีการนี้ทำให้โมเดลเป็นสิ่งที่ทีมเรียกว่าคำศัพท์ภาพ

ตามที่ Huang อธิบาย วิธีการเรียนรู้ล่วงหน้าโดยใช้คำศัพท์ภาพนั้นคล้ายกับการเตรียมเด็กให้พร้อมสำหรับการอ่าน ขั้นแรก หนังสือภาพจะใช้คำแต่ละคำที่เกี่ยวข้องกับภาพ ตัวอย่างเช่น ใต้ภาพแอปเปิ้ลจะเขียนว่า "แอปเปิ้ล" และใต้รูปแมวมีคำว่า "แมว"

“การฝึกอบรมล่วงหน้าด้วยคำศัพท์ภาพเป็นสาระสำคัญ การศึกษาเบื้องต้นที่จำเป็นในการฝึกอบรมระบบ นี่คือวิธีที่เราพยายามพัฒนาหน่วยความจำประเภทมอเตอร์” Huang กล่าว

โมเดลที่ฝึกไว้ล่วงหน้าจะได้รับการปรับปรุงด้วยชุดข้อมูลที่มีรูปภาพกำกับ ในขั้นตอนของการฝึกนี้ ตัวแบบจะเรียนรู้การสร้างประโยค หากรูปภาพที่มีวัตถุใหม่ปรากฏขึ้น ระบบ AI จะใช้พจนานุกรมภาพเพื่อสร้างคำอธิบายที่ถูกต้อง

“ในการทำงานกับวัตถุใหม่ในระหว่างการทดสอบ ระบบจะผสานรวมสิ่งที่ได้เรียนรู้ระหว่างการฝึกก่อนและระหว่างการปรับแต่งในภายหลัง” Wang กล่าว
ตามผลลัพธ์ การวิจัยเมื่อประเมินในการทดสอบ nocaps ระบบ AI จะสร้างคำอธิบายที่มีความหมายและแม่นยำมากกว่าที่มนุษย์ทำกับภาพเดียวกัน

การเปลี่ยนไปสู่สภาพแวดล้อมการทำงานที่รวดเร็วขึ้น 

เหนือสิ่งอื่นใด ระบบคำอธิบายรูปภาพใหม่นั้นดีเป็นสองเท่าของรุ่นที่ใช้ในผลิตภัณฑ์และบริการของ Microsoft ตั้งแต่ปี 2015 เมื่อเปรียบเทียบกับมาตรฐานอุตสาหกรรมอื่น

เมื่อพิจารณาถึงประโยชน์ที่ผู้ใช้ผลิตภัณฑ์และบริการของ Microsoft ทุกคนจะได้รับจากการปรับปรุงนี้ Huang จึงเร่งการรวมโมเดลใหม่เข้ากับสภาพแวดล้อมการทำงาน Azure

“เรากำลังนำเทคโนโลยี AI ที่ก่อกวนนี้มาใช้กับ Azure เพื่อเป็นแพลตฟอร์มเพื่อให้บริการลูกค้าในวงกว้างขึ้น” เขากล่าว “และนี่ไม่ใช่แค่ความก้าวหน้าในการวิจัยเท่านั้น เวลาที่ใช้ในการรวมความก้าวหน้านี้เข้ากับสภาพแวดล้อมการผลิต Azure ก็เป็นความก้าวหน้าเช่นกัน”

Huang เสริมว่าการบรรลุผลลัพธ์ที่เหมือนมนุษย์ยังคงเป็นแนวโน้มที่จัดตั้งขึ้นแล้วในระบบความฉลาดทางปัญญาของ Microsoft

“ในช่วง 2020 ปีที่ผ่านมา เราบรรลุผลลัพธ์ที่เหมือนมนุษย์ใน 19 ด้านหลัก ได้แก่ ในการรู้จำเสียง การแปลด้วยคอมพิวเตอร์ การตอบคำถาม การอ่านด้วยเครื่องและการทำความเข้าใจข้อความ และในปี XNUMX แม้จะมี COVID-XNUMX ในคำอธิบายภาพ ฮวนกล่าว

ตามหัวข้อ

เปรียบเทียบผลลัพธ์คำอธิบายภาพที่ระบบให้ไว้ก่อนและตอนนี้ใช้ AI

เทคโนโลยีล่าสุดของ Microsoft ใน Azure AI อธิบายภาพและผู้คน

ได้รับความอนุเคราะห์จากเก็ตตี้อิมเมจ คำอธิบายก่อนหน้า: ภาพระยะใกล้ของชายคนหนึ่งกำลังเตรียมฮอทด็อกบนเขียง คำอธิบายใหม่: ชายคนหนึ่งทำขนมปัง

เทคโนโลยีล่าสุดของ Microsoft ใน Azure AI อธิบายภาพและผู้คน

ได้รับความอนุเคราะห์จากเก็ตตี้อิมเมจ คำอธิบายก่อนหน้า: ชายคนหนึ่งกำลังนั่งดูพระอาทิตย์ตกดิน คำอธิบายใหม่: กองไฟบนชายหาด

เทคโนโลยีล่าสุดของ Microsoft ใน Azure AI อธิบายภาพและผู้คน

ได้รับความอนุเคราะห์จากเก็ตตี้อิมเมจ คำอธิบายก่อนหน้า: ชายในเสื้อเชิ้ตสีน้ำเงิน คำอธิบายใหม่: หลายคนสวมหน้ากากอนามัย

เทคโนโลยีล่าสุดของ Microsoft ใน Azure AI อธิบายภาพและผู้คน

ได้รับความอนุเคราะห์จากเก็ตตี้อิมเมจ คำอธิบายก่อนหน้า: ชายคนหนึ่งบนสเก็ตบอร์ดบินขึ้นไปบนกำแพง คำอธิบายใหม่: ผู้เล่นเบสบอลจับลูกบอล

ที่มา: will.com

เพิ่มความคิดเห็น