ماموریت مایکروسافت این است که به هر فرد و سازمانی در این سیاره قدرت دهد تا به دستاوردهای بیشتری برسد. صنعت رسانه یک نمونه عالی برای تحقق این ماموریت است. ما در عصری زندگی می کنیم که در آن محتوای بیشتری به روش های بیشتر و در دستگاه های بیشتری تولید و مصرف می شود. در IBC 2019، آخرین نوآوریهایی را که روی آن کار میکنیم و اینکه چگونه میتوانند به تغییر تجربه رسانهای شما کمک کنند، به اشتراک گذاشتیم.
جزئیات زیر برش!
این صفحه فعال است
Video Indexer اکنون از انیمیشن و محتوای چند زبانه پشتیبانی می کند
سال گذشته در IBC ما برنده جایزه خود شدیم
جدیدترین پیشنهادات ما شامل پیش نمایش دو ویژگی بسیار پرطرفدار و متمایز-تشخیص کاراکترهای متحرک و رونویسی گفتار چند زبانه- و همچنین چندین مدل اضافه شده به مدلهای موجود امروزی در Video Indexer است.
تشخیص شخصیت متحرک
محتوای متحرک یکی از محبوبترین انواع محتوا است، اما مدلهای استاندارد بینایی رایانهای که برای تشخیص چهره انسان طراحی شدهاند، به خوبی با آن کار نمیکنند، به خصوص اگر محتوا حاوی شخصیتهایی بدون ویژگیهای صورت انسان باشد. نسخه پیشنمایش جدید Video Indexer را با سرویس Azure Custom Vision مایکروسافت ترکیب میکند و مجموعه جدیدی از مدلها را ارائه میکند که بهطور خودکار شخصیتهای متحرک را شناسایی و گروهبندی میکند و برچسبگذاری و شناسایی آنها را با استفاده از مدلهای دید سفارشی یکپارچه آسان میکند.
این مدلها در یک خط لوله واحد ادغام شدهاند و به هر کسی اجازه میدهند بدون دانش یادگیری ماشینی از این سرویس استفاده کنند. نتایج از طریق یک پورتال Video Indexer بدون کد یا از طریق یک REST API برای ادغام سریع در برنامه های خود در دسترس هستند.
ما این مدل ها را برای کار با شخصیت های متحرک به همراه برخی از مصرف کنندگان که محتوای انیمیشن واقعی را برای آموزش و آزمایش ارائه می کردند ساخته ایم. ارزش عملکرد جدید توسط اندی گاتریج، مدیر ارشد فناوری استودیویی و پس از تولید در شبکههای رسانهای بینالمللی Viacom، که یکی از ارائهدهندگان داده بود، به خوبی خلاصه شد: «اضافه شدن کشف محتوای متحرک قوی مبتنی بر هوش مصنوعی این امکان را به شما میدهد. ما به سرعت و کارآمدی فراداده شخصیت ها را از محتوای کتابخانه خود پیدا کرده و فهرست بندی کنیم.
مهمتر از همه، این به تیم های خلاق ما این توانایی را می دهد که فوراً محتوای مورد نیاز خود را بیابند و زمان صرف شده برای مدیریت رسانه را به حداقل می رساند و به آنها اجازه می دهد بر خلاقیت تمرکز کنند.
می توانید با شناسایی شخصیت های متحرک آشنا شوید
شناسایی و رونویسی محتوا به چند زبان
برخی از منابع رسانهای مانند اخبار، وقایع نگاری و مصاحبهها حاوی ضبطهایی از افرادی هستند که به زبانهای مختلف صحبت میکنند. بیشتر قابلیتهای گفتار به نوشتار موجود نیاز به تعیین زبان تشخیص صدا از قبل دارند، که رونویسی ویدیوهای چند زبانه را دشوار میکند.
ویژگی جدید شناسایی خودکار زبان گفتاری ما برای انواع مختلف محتوا از فناوری یادگیری ماشین برای شناسایی زبانهای موجود در داراییهای رسانه استفاده میکند. پس از شناسایی، هر بخش زبان به طور خودکار فرآیند رونویسی را به زبان مناسب طی میکند و سپس همه بخشها در یک فایل رونویسی چند زبانه ترکیب میشوند.
رونوشت حاصل به عنوان بخشی از خروجی JSON نمایه ساز ویدیو و فایل های زیرنویس در دسترس است. رونوشت خروجی نیز با جستجوی Azure یکپارچه شده است و به شما امکان می دهد فوراً بخش های زبانی مختلف را در ویدیوهای خود جستجو کنید. علاوه بر این، رونویسی چند زبانه هنگام کار با پورتال Video Indexer در دسترس است، بنابراین میتوانید رونوشت و زبان شناسایی شده را در طول زمان مشاهده کنید، یا به مکانهای خاصی در ویدیو برای هر زبان بپرید و رونویسی چند زبانه را بهعنوان زیرنویس در حین پخش ویدیو ببینید. همچنین می توانید متن دریافتی را به هر یک از 54 زبان موجود از طریق پورتال و API ترجمه کنید.
درباره ویژگی جدید تشخیص محتوای چند زبانه و نحوه استفاده از آن در Video Indexer بیشتر بدانید
مدل های به روز و بهبود یافته اضافی
ما همچنین مدلهای جدیدی را به Video Indexer اضافه میکنیم و مدلهای موجود را بهبود میدهیم، از جمله مواردی که در زیر توضیح داده شده است.
استخراج موجودیت های مرتبط با افراد و مکان ها
ما قابلیتهای کشف برند موجود خود را گسترش دادهایم تا نامها و مکانهای شناختهشده، مانند برج ایفل در پاریس و بیگ بن در لندن را در بر بگیرد. هنگامی که آنها در رونوشت تولید شده یا روی صفحه با استفاده از تشخیص کاراکتر نوری (OCR) ظاهر می شوند، اطلاعات مربوطه اضافه می شود. با استفاده از این ویژگی جدید، میتوانید همه افراد، مکانها و مارکهایی را که در یک ویدیو ظاهر شدهاند جستجو کنید و جزئیات مربوط به آنها از جمله زمانبندی، توضیحات و لینکهای موتور جستجوی بینگ را برای اطلاعات بیشتر مشاهده کنید.
مدل تشخیص قاب برای ویرایشگر
این ویژگی جدید مجموعهای از «برچسبها» را به فرادادههای متصل به فریمهای جداگانه در جزئیات JSON اضافه میکند تا نوع ویرایشی آنها را نشان دهد (به عنوان مثال، عکس واید، شات متوسط، نمای نزدیک، نمای نزدیک، دو عکس، چند نفر. ، فضای باز، داخل ساختمان و غیره). این ویژگیهای نوع عکس هنگام ویرایش ویدیو برای کلیپها و تریلرها، یا زمانی که به دنبال یک سبک عکس خاص برای اهداف هنری هستید، مفید هستند.
دانه بندی نقشه IPTC پیشرفته
مدل تشخیص موضوع ما موضوع یک ویدیو را بر اساس رونویسی، تشخیص نویسه نوری (OCR) و افراد مشهور شناسایی شده تعیین میکند، حتی اگر موضوع به صراحت مشخص نشده باشد. ما این موضوعات شناسایی شده را به چهار حوزه طبقه بندی می کنیم: ویکی پدیا، بینگ، IPTC و IAB. این پیشرفت به ما امکان می دهد طبقه بندی IPTC سطح دوم را نیز لحاظ کنیم.
استفاده از این پیشرفتها به آسانی فهرستبندی مجدد کتابخانه نمایهساز ویدیوی فعلی شماست.
قابلیت پخش زنده جدید
در پیشنمایش خدمات رسانهای Azure، دو ویژگی جدید را برای پخش زنده ارائه میدهیم.
رونویسی بلادرنگ مبتنی بر هوش مصنوعی، پخش زنده را به سطح بعدی می برد
با استفاده از خدمات رسانه ای Azure برای پخش زنده، اکنون می توانید یک جریان خروجی دریافت کنید که علاوه بر محتوای صوتی و تصویری، یک آهنگ متنی تولید شده به طور خودکار را نیز شامل می شود. متن با استفاده از رونویسی صوتی بلادرنگ بر اساس هوش مصنوعی ایجاد شده است. تکنیکهای سفارشی قبل و بعد از تبدیل گفتار به متن برای بهبود نتایج اعمال میشوند. تراک متن بسته به اینکه در DASH، HLS CMAF یا HLS TS عرضه شده باشد در IMSC1، TTML یا WebVTT بسته بندی می شود.
رمزگذاری خط بلادرنگ برای کانال های OTT 24/7
با استفاده از APIهای v3 ما، میتوانید کانالهای OTT (بیش از حد) را ایجاد، مدیریت و پخش کنید، و از سایر ویژگیهای خدمات رسانهای Azure مانند ویدیوی زنده درخواستی (VOD، ویدیوی درخواستی)، بستهبندی و مدیریت حقوق دیجیتال استفاده کنید. DRM، مدیریت حقوق دیجیتال).
برای مشاهده نسخههای پیشنمایش این ویژگیها، به سایت مراجعه کنید
قابلیت های تولید بسته جدید
پشتیبانی از آهنگ های توضیحات صوتی
محتوای پخش شده از طریق کانال های پخش اغلب دارای یک تراک صوتی با توضیحات شفاهی از اتفاقات روی صفحه نمایش علاوه بر سیگنال صوتی معمولی است. این باعث میشود برنامهها برای بینندگان کمبینا در دسترستر باشند، بهویژه اگر محتوا در درجه اول بصری باشد. جدید
درج متادیتا ID3
برای نشان دادن درج تبلیغات یا رویدادهای فراداده سفارشی به پخشکننده مشتری، پخشکنندهها اغلب از ابردادههای زمانبندیشده در ویدیو استفاده میکنند. علاوه بر حالت های سیگنال دهی SCTE-35، ما اکنون از آن نیز پشتیبانی می کنیم
شرکای Microsoft Azure راه حل های سرتاسری را نشان می دهند
شرکت بین المللی
منبع: www.habr.com