ภารกิจของ Microsoft คือการเสริมศักยภาพให้กับทุกคนและองค์กรทั่วโลกให้ประสบความสำเร็จมากขึ้น อุตสาหกรรมสื่อเป็นตัวอย่างที่ดีในการทำให้ภารกิจนี้เป็นจริง เราอยู่ในยุคที่มีการสร้างและบริโภคเนื้อหามากขึ้น ในรูปแบบที่มากขึ้นและบนอุปกรณ์ที่มากขึ้น ที่ IBC 2019 เราได้แบ่งปันนวัตกรรมล่าสุดที่เรากำลังดำเนินการอยู่ และวิธีที่นวัตกรรมเหล่านี้จะช่วยเปลี่ยนแปลงประสบการณ์สื่อของคุณ
รายละเอียดใต้คัท!
หน้านี้เปิดอยู่
Video Indexer รองรับแอนิเมชั่นและเนื้อหาหลายภาษาแล้ว
ปีที่แล้วที่ IBC เราได้รับรางวัล
ข้อเสนอล่าสุดของเราประกอบด้วยการแสดงตัวอย่างคุณลักษณะที่แตกต่างและเป็นที่ต้องการอย่างมากสองประการ ได้แก่ การจดจำอักขระแบบเคลื่อนไหวและการถอดเสียงพูดหลายภาษา ตลอดจนส่วนเพิ่มเติมหลายรายการในโมเดลที่มีอยู่ในปัจจุบันใน Video Indexer
การรู้จำตัวละครแบบเคลื่อนไหว
เนื้อหาแบบเคลื่อนไหวเป็นเนื้อหาประเภทหนึ่งที่ได้รับความนิยมมากที่สุด แต่โมเดลคอมพิวเตอร์วิทัศน์มาตรฐานที่ออกแบบมาเพื่อจดจำใบหน้ามนุษย์จะทำงานได้ไม่ดีนัก โดยเฉพาะอย่างยิ่งหากเนื้อหามีอักขระที่ไม่มีใบหน้าของมนุษย์ เวอร์ชันตัวอย่างใหม่ผสมผสาน Video Indexer เข้ากับบริการ Azure Custom Vision ของ Microsoft ซึ่งนำเสนอชุดรูปแบบใหม่ที่ตรวจจับและจัดกลุ่มตัวละครเคลื่อนไหวโดยอัตโนมัติ และทำให้ง่ายต่อการติดป้ายกำกับและจดจำโดยใช้โมเดลการมองเห็นแบบกำหนดเองที่ผสานรวม
โมเดลต่างๆ ได้รับการผสานรวมเป็นไปป์ไลน์เดียว ช่วยให้ทุกคนใช้บริการได้โดยไม่ต้องมีความรู้ด้านแมชชีนเลิร์นนิง ผลลัพธ์สามารถดูได้ผ่านพอร์ทัล Video Indexer ที่ไม่มีโค้ดหรือผ่าน REST API เพื่อการรวมเข้ากับแอปพลิเคชันของคุณอย่างรวดเร็ว
เราสร้างโมเดลเหล่านี้เพื่อทำงานร่วมกับตัวละครที่เคลื่อนไหวได้ร่วมกับผู้บริโภคบางรายที่จัดเตรียมเนื้อหาแอนิเมชั่นจริงสำหรับการฝึกอบรมและการทดสอบ Andy Gutterridge ผู้อำนวยการอาวุโสฝ่ายเทคโนโลยีสตูดิโอและหลังการผลิตของ Viacom International Media Networks ซึ่งเป็นหนึ่งในผู้ให้บริการข้อมูลได้สรุปคุณค่าของฟังก์ชันการทำงานใหม่ไว้อย่างดีว่า "การเพิ่มการค้นพบเนื้อหาแอนิเมชั่นที่ขับเคลื่อนด้วย AI ที่แข็งแกร่งจะช่วยให้ เราค้นหาและจัดทำแค็ตตาล็อกข้อมูลเมตาของอักขระจากเนื้อหาห้องสมุดของเราได้อย่างรวดเร็วและมีประสิทธิภาพ
สิ่งสำคัญที่สุดคือจะช่วยให้ทีมสร้างสรรค์ของเราสามารถค้นหาเนื้อหาที่ต้องการได้ทันที ลดเวลาในการจัดการสื่อ และทำให้พวกเขามุ่งเน้นไปที่ความคิดสร้างสรรค์ได้”
คุณสามารถเริ่มทำความคุ้นเคยกับการจดจำตัวละครแบบเคลื่อนไหวได้ด้วย
การระบุและการถอดความเนื้อหาในหลายภาษา
แหล่งข้อมูลสื่อบางอย่าง เช่น ข่าว บันทึกเหตุการณ์ และบทสัมภาษณ์ มีบันทึกของผู้คนที่พูดภาษาต่างกัน ความสามารถในการแปลงคำพูดเป็นข้อความที่มีอยู่ส่วนใหญ่จำเป็นต้องระบุภาษาการจดจำเสียงล่วงหน้า ซึ่งทำให้ยากต่อการถอดเสียงวิดีโอหลายภาษา
คุณสมบัติการระบุภาษาที่พูดอัตโนมัติใหม่ของเราสำหรับเนื้อหาประเภทต่างๆ ใช้เทคโนโลยีการเรียนรู้ของเครื่องเพื่อระบุภาษาที่พบในเนื้อหาสื่อ เมื่อตรวจพบแล้ว แต่ละส่วนของภาษาจะเข้าสู่กระบวนการถอดเสียงในภาษาที่เหมาะสมโดยอัตโนมัติ จากนั้นทุกส่วนจะรวมกันเป็นไฟล์การถอดเสียงหลายภาษาไฟล์เดียว
การถอดเสียงที่ได้จะพร้อมใช้งานโดยเป็นส่วนหนึ่งของเอาต์พุต JSON ของ Video Indexer และในรูปแบบไฟล์คำบรรยาย การถอดเสียงเอาต์พุตยังรวมเข้ากับ Azure Search อีกด้วย ทำให้คุณสามารถค้นหาส่วนภาษาต่างๆ ในวิดีโอของคุณได้ทันที นอกจากนี้ การถอดเสียงเป็นคำหลายภาษายังใช้งานได้เมื่อทำงานร่วมกับพอร์ทัล Video Indexer ดังนั้นคุณจึงสามารถดูการถอดเสียงและภาษาที่ระบุเมื่อเวลาผ่านไป หรือข้ามไปยังตำแหน่งเฉพาะในวิดีโอสำหรับแต่ละภาษา และดูการถอดเสียงเป็นหลายภาษาเป็นคำอธิบายภาพในขณะที่เล่นวิดีโอ คุณยังสามารถแปลข้อความที่ได้รับเป็นภาษาใดก็ได้จาก 54 ภาษาที่มีอยู่ผ่านพอร์ทัลและ API
เรียนรู้เพิ่มเติมเกี่ยวกับคุณลักษณะการจดจำเนื้อหาหลายภาษาใหม่ และวิธีการใช้งานในตัวสร้างดัชนีวิดีโอ
รุ่นที่ได้รับการปรับปรุงและปรับปรุงเพิ่มเติม
นอกจากนี้ เรายังเพิ่มโมเดลใหม่ๆ ให้กับ Video Indexer และปรับปรุงโมเดลที่มีอยู่ รวมถึงโมเดลที่อธิบายไว้ด้านล่าง
การแยกเอนทิตีที่เกี่ยวข้องกับผู้คนและสถานที่
เราได้ขยายความสามารถในการค้นหาแบรนด์ที่มีอยู่ให้ครอบคลุมชื่อและสถานที่ที่มีชื่อเสียง เช่น หอไอเฟลในปารีสและบิ๊กเบนในลอนดอน เมื่อปรากฏในข้อความถอดเสียงที่สร้างขึ้นหรือบนหน้าจอโดยใช้การรู้จำอักขระด้วยแสง (OCR) ข้อมูลที่เกี่ยวข้องจะถูกเพิ่ม ด้วยฟีเจอร์ใหม่นี้ คุณสามารถค้นหาผู้คน สถานที่ และแบรนด์ทั้งหมดที่ปรากฏในวิดีโอ และดูรายละเอียดเกี่ยวกับสถานที่เหล่านั้น รวมถึงช่วงเวลา คำอธิบาย และลิงก์ไปยังเครื่องมือค้นหาของ Bing เพื่อดูข้อมูลเพิ่มเติม
โมเดลการตรวจจับเฟรมสำหรับบรรณาธิการ
คุณลักษณะใหม่นี้จะเพิ่มชุด "แท็ก" ให้กับข้อมูลเมตาที่แนบมากับแต่ละเฟรมในรายละเอียด JSON เพื่อแสดงถึงประเภทบรรณาธิการ (เช่น ภาพมุมกว้าง ภาพขนาดกลาง ภาพระยะใกล้ ภาพระยะใกล้มาก ภาพสองภาพ หลายคน , กลางแจ้ง, ในอาคาร ฯลฯ) ลักษณะเฉพาะของประเภทช็อตเหล่านี้มีประโยชน์เมื่อตัดต่อวิดีโอสำหรับคลิปและตัวอย่าง หรือเมื่อมองหาสไตล์ช็อตเฉพาะเพื่อจุดประสงค์ทางศิลปะ
รายละเอียดการทำแผนที่ IPTC ที่ได้รับการปรับปรุง
โมเดลการตรวจจับหัวข้อของเราจะกำหนดหัวข้อของวิดีโอตามการถอดเสียง การรู้จำอักขระด้วยแสง (OCR) และคนดังที่ตรวจพบ แม้ว่าหัวข้อจะไม่ได้ระบุอย่างชัดเจนก็ตาม เราแมปหัวข้อที่ตรวจพบเหล่านี้กับหมวดหมู่สี่ประเภท: Wikipedia, Bing, IPTC และ IAB การปรับปรุงนี้ช่วยให้เรารวมการจำแนก IPTC ระดับที่สองได้
การใช้ประโยชน์จากการปรับปรุงเหล่านี้ทำได้ง่ายพอๆ กับการสร้างดัชนีไลบรารี Video Indexer ปัจจุบันของคุณใหม่
ฟังก์ชั่นการถ่ายทอดสดแบบใหม่
ในการแสดงตัวอย่าง Azure Media Services เรายังนำเสนอคุณลักษณะใหม่สองประการสำหรับการสตรีมแบบสดอีกด้วย
การถอดเสียงแบบเรียลไทม์ที่ขับเคลื่อนด้วย AI ยกระดับการสตรีมสดไปอีกระดับ
เมื่อใช้ Azure Media Services สำหรับการสตรีมสด ตอนนี้คุณสามารถรับสตรีมเอาต์พุตที่มีแทร็กข้อความที่สร้างขึ้นโดยอัตโนมัติ นอกเหนือจากเนื้อหาเสียงและวิดีโอ ข้อความถูกสร้างขึ้นโดยใช้การถอดเสียงแบบเรียลไทม์โดยใช้ปัญญาประดิษฐ์ เทคนิคที่กำหนดเองจะถูกใช้ก่อนและหลังการแปลงคำพูดเป็นข้อความเพื่อปรับปรุงผลลัพธ์ แทร็กข้อความถูกรวมเป็นแพ็กเกจใน IMSC1, TTML หรือ WebVTT ขึ้นอยู่กับว่ามีให้ใน DASH, HLS CMAF หรือ HLS TS
การเข้ารหัสบรรทัดแบบเรียลไทม์สำหรับช่อง OTT ทุกวันตลอด 24 ชั่วโมง
เมื่อใช้ API เวอร์ชัน 3 ของเรา คุณจะสามารถสร้าง จัดการ และออกอากาศช่อง OTT (แบบโอเวอร์เดอะท็อป) และใช้ฟีเจอร์ Azure Media Services อื่นๆ ทั้งหมด เช่น วิดีโอสดตามต้องการ (VOD, วิดีโอตามต้องการ) บรรจุภัณฑ์ และการจัดการสิทธิ์ดิจิทัล ( DRM การจัดการสิทธิ์ดิจิทัล)
หากต้องการดูเวอร์ชันตัวอย่างคุณลักษณะเหล่านี้ โปรดไปที่
ความสามารถในการสร้างแพ็คเกจใหม่
รองรับแทร็กคำอธิบายเสียง
เนื้อหาที่ออกอากาศผ่านช่องออกอากาศมักจะมีแทร็กเสียงพร้อมคำอธิบายด้วยวาจาเกี่ยวกับสิ่งที่เกิดขึ้นบนหน้าจอ นอกเหนือจากสัญญาณเสียงปกติ ซึ่งทำให้ผู้ดูที่มีความบกพร่องทางการมองเห็นเข้าถึงโปรแกรมต่างๆ ได้มากขึ้น โดยเฉพาะอย่างยิ่งหากเนื้อหามีภาพเป็นหลัก ใหม่
การแทรกข้อมูลเมตา ID3
เพื่อส่งสัญญาณการแทรกโฆษณาหรือเหตุการณ์ข้อมูลเมตาที่กำหนดเองไปยังโปรแกรมเล่นของลูกค้า ผู้ออกอากาศมักจะใช้ข้อมูลเมตาตามกำหนดเวลาที่ฝังอยู่ในวิดีโอ นอกจากโหมดการส่งสัญญาณ SCTE-35 แล้ว เรายังรองรับอีกด้วย
พันธมิตร Microsoft Azure สาธิตโซลูชันแบบครบวงจร
บริษัทระหว่างประเทศ
ที่มา: will.com