12 سرویس رسانه ای جدید Azure با هوش مصنوعی

ماموریت مایکروسافت این است که به هر فرد و سازمانی در این سیاره قدرت دهد تا به دستاوردهای بیشتری برسد. صنعت رسانه یک نمونه عالی برای تحقق این ماموریت است. ما در عصری زندگی می کنیم که در آن محتوای بیشتری به روش های بیشتر و در دستگاه های بیشتری تولید و مصرف می شود. در IBC 2019، آخرین نوآوری‌هایی را که روی آن کار می‌کنیم و اینکه چگونه می‌توانند به تغییر تجربه رسانه‌ای شما کمک کنند، به اشتراک گذاشتیم.
12 سرویس رسانه ای جدید Azure با هوش مصنوعی
جزئیات زیر برش!

این صفحه فعال است وب سایت ما

Video Indexer اکنون از انیمیشن و محتوای چند زبانه پشتیبانی می کند

سال گذشته در IBC ما برنده جایزه خود شدیم Azure Media Services Video Indexerو امسال بهتر شد. Video Indexer به طور خودکار اطلاعات و ابرداده‌ها را از فایل‌های رسانه‌ای مانند کلمات گفتاری، چهره‌ها، احساسات، موضوعات و مارک‌ها استخراج می‌کند و برای استفاده از آن نیازی نیست که یک متخصص یادگیری ماشین باشید.

جدیدترین پیشنهادات ما شامل پیش نمایش دو ویژگی بسیار پرطرفدار و متمایز-تشخیص کاراکترهای متحرک و رونویسی گفتار چند زبانه- و همچنین چندین مدل اضافه شده به مدل‌های موجود امروزی در Video Indexer است.

تشخیص شخصیت متحرک

12 سرویس رسانه ای جدید Azure با هوش مصنوعی
محتوای متحرک یکی از محبوب‌ترین انواع محتوا است، اما مدل‌های استاندارد بینایی رایانه‌ای که برای تشخیص چهره انسان طراحی شده‌اند، به خوبی با آن کار نمی‌کنند، به خصوص اگر محتوا حاوی شخصیت‌هایی بدون ویژگی‌های صورت انسان باشد. نسخه پیش‌نمایش جدید Video Indexer را با سرویس Azure Custom Vision مایکروسافت ترکیب می‌کند و مجموعه جدیدی از مدل‌ها را ارائه می‌کند که به‌طور خودکار شخصیت‌های متحرک را شناسایی و گروه‌بندی می‌کند و برچسب‌گذاری و شناسایی آنها را با استفاده از مدل‌های دید سفارشی یکپارچه آسان می‌کند.

این مدل‌ها در یک خط لوله واحد ادغام شده‌اند و به هر کسی اجازه می‌دهند بدون دانش یادگیری ماشینی از این سرویس استفاده کنند. نتایج از طریق یک پورتال Video Indexer بدون کد یا از طریق یک REST API برای ادغام سریع در برنامه های خود در دسترس هستند.

ما این مدل ها را برای کار با شخصیت های متحرک به همراه برخی از مصرف کنندگان که محتوای انیمیشن واقعی را برای آموزش و آزمایش ارائه می کردند ساخته ایم. ارزش عملکرد جدید توسط اندی گاتریج، مدیر ارشد فناوری استودیویی و پس از تولید در شبکه‌های رسانه‌ای بین‌المللی Viacom، که یکی از ارائه‌دهندگان داده بود، به خوبی خلاصه شد: «اضافه شدن کشف محتوای متحرک قوی مبتنی بر هوش مصنوعی این امکان را به شما می‌دهد. ما به سرعت و کارآمدی فراداده شخصیت ها را از محتوای کتابخانه خود پیدا کرده و فهرست بندی کنیم.

مهمتر از همه، این به تیم های خلاق ما این توانایی را می دهد که فوراً محتوای مورد نیاز خود را بیابند و زمان صرف شده برای مدیریت رسانه را به حداقل می رساند و به آنها اجازه می دهد بر خلاقیت تمرکز کنند.

می توانید با شناسایی شخصیت های متحرک آشنا شوید صفحات اسناد.

شناسایی و رونویسی محتوا به چند زبان

برخی از منابع رسانه‌ای مانند اخبار، وقایع نگاری و مصاحبه‌ها حاوی ضبط‌هایی از افرادی هستند که به زبان‌های مختلف صحبت می‌کنند. بیشتر قابلیت‌های گفتار به نوشتار موجود نیاز به تعیین زبان تشخیص صدا از قبل دارند، که رونویسی ویدیوهای چند زبانه را دشوار می‌کند.

ویژگی جدید شناسایی خودکار زبان گفتاری ما برای انواع مختلف محتوا از فناوری یادگیری ماشین برای شناسایی زبان‌های موجود در دارایی‌های رسانه استفاده می‌کند. پس از شناسایی، هر بخش زبان به طور خودکار فرآیند رونویسی را به زبان مناسب طی می‌کند و سپس همه بخش‌ها در یک فایل رونویسی چند زبانه ترکیب می‌شوند.

12 سرویس رسانه ای جدید Azure با هوش مصنوعی

رونوشت حاصل به عنوان بخشی از خروجی JSON نمایه ساز ویدیو و فایل های زیرنویس در دسترس است. رونوشت خروجی نیز با جستجوی Azure یکپارچه شده است و به شما امکان می دهد فوراً بخش های زبانی مختلف را در ویدیوهای خود جستجو کنید. علاوه بر این، رونویسی چند زبانه هنگام کار با پورتال Video Indexer در دسترس است، بنابراین می‌توانید رونوشت و زبان شناسایی شده را در طول زمان مشاهده کنید، یا به مکان‌های خاصی در ویدیو برای هر زبان بپرید و رونویسی چند زبانه را به‌عنوان زیرنویس در حین پخش ویدیو ببینید. همچنین می توانید متن دریافتی را به هر یک از 54 زبان موجود از طریق پورتال و API ترجمه کنید.

درباره ویژگی جدید تشخیص محتوای چند زبانه و نحوه استفاده از آن در Video Indexer بیشتر بدانید مستندات را بخوانید.

مدل های به روز و بهبود یافته اضافی

ما همچنین مدل‌های جدیدی را به Video Indexer اضافه می‌کنیم و مدل‌های موجود را بهبود می‌دهیم، از جمله مواردی که در زیر توضیح داده شده است.

استخراج موجودیت های مرتبط با افراد و مکان ها

ما قابلیت‌های کشف برند موجود خود را گسترش داده‌ایم تا نام‌ها و مکان‌های شناخته‌شده، مانند برج ایفل در پاریس و بیگ بن در لندن را در بر بگیرد. هنگامی که آنها در رونوشت تولید شده یا روی صفحه با استفاده از تشخیص کاراکتر نوری (OCR) ظاهر می شوند، اطلاعات مربوطه اضافه می شود. با استفاده از این ویژگی جدید، می‌توانید همه افراد، مکان‌ها و مارک‌هایی را که در یک ویدیو ظاهر شده‌اند جستجو کنید و جزئیات مربوط به آن‌ها از جمله زمان‌بندی، توضیحات و لینک‌های موتور جستجوی بینگ را برای اطلاعات بیشتر مشاهده کنید.

12 سرویس رسانه ای جدید Azure با هوش مصنوعی

مدل تشخیص قاب برای ویرایشگر

این ویژگی جدید مجموعه‌ای از «برچسب‌ها» را به فراداده‌های متصل به فریم‌های جداگانه در جزئیات JSON اضافه می‌کند تا نوع ویرایشی آن‌ها را نشان دهد (به عنوان مثال، عکس واید، شات متوسط، نمای نزدیک، نمای نزدیک، دو عکس، چند نفر. ، فضای باز، داخل ساختمان و غیره). این ویژگی‌های نوع عکس هنگام ویرایش ویدیو برای کلیپ‌ها و تریلرها، یا زمانی که به دنبال یک سبک عکس خاص برای اهداف هنری هستید، مفید هستند.

12 سرویس رسانه ای جدید Azure با هوش مصنوعی
بیشتر بدانید تشخیص نوع قاب در نمایه ساز ویدیو.

دانه بندی نقشه IPTC پیشرفته

مدل تشخیص موضوع ما موضوع یک ویدیو را بر اساس رونویسی، تشخیص نویسه نوری (OCR) و افراد مشهور شناسایی شده تعیین می‌کند، حتی اگر موضوع به صراحت مشخص نشده باشد. ما این موضوعات شناسایی شده را به چهار حوزه طبقه بندی می کنیم: ویکی پدیا، بینگ، IPTC و IAB. این پیشرفت به ما امکان می دهد طبقه بندی IPTC سطح دوم را نیز لحاظ کنیم.
استفاده از این پیشرفت‌ها به آسانی فهرست‌بندی مجدد کتابخانه نمایه‌ساز ویدیوی فعلی شماست.

قابلیت پخش زنده جدید

در پیش‌نمایش خدمات رسانه‌ای Azure، دو ویژگی جدید را برای پخش زنده ارائه می‌دهیم.

رونویسی بلادرنگ مبتنی بر هوش مصنوعی، پخش زنده را به سطح بعدی می برد

با استفاده از خدمات رسانه ای Azure برای پخش زنده، اکنون می توانید یک جریان خروجی دریافت کنید که علاوه بر محتوای صوتی و تصویری، یک آهنگ متنی تولید شده به طور خودکار را نیز شامل می شود. متن با استفاده از رونویسی صوتی بلادرنگ بر اساس هوش مصنوعی ایجاد شده است. تکنیک‌های سفارشی قبل و بعد از تبدیل گفتار به متن برای بهبود نتایج اعمال می‌شوند. تراک متن بسته به اینکه در DASH، HLS CMAF یا HLS TS عرضه شده باشد در IMSC1، TTML یا WebVTT بسته بندی می شود.

رمزگذاری خط بلادرنگ برای کانال های OTT 24/7

با استفاده از APIهای v3 ما، می‌توانید کانال‌های OTT (بیش از حد) را ایجاد، مدیریت و پخش کنید، و از سایر ویژگی‌های خدمات رسانه‌ای Azure مانند ویدیوی زنده درخواستی (VOD، ویدیوی درخواستی)، بسته‌بندی و مدیریت حقوق دیجیتال استفاده کنید. DRM، مدیریت حقوق دیجیتال).
برای مشاهده نسخه‌های پیش‌نمایش این ویژگی‌ها، به سایت مراجعه کنید انجمن خدمات رسانه ای Azure.

12 سرویس رسانه ای جدید Azure با هوش مصنوعی

قابلیت های تولید بسته جدید

پشتیبانی از آهنگ های توضیحات صوتی

محتوای پخش شده از طریق کانال های پخش اغلب دارای یک تراک صوتی با توضیحات شفاهی از اتفاقات روی صفحه نمایش علاوه بر سیگنال صوتی معمولی است. این باعث می‌شود برنامه‌ها برای بینندگان کم‌بینا در دسترس‌تر باشند، به‌ویژه اگر محتوا در درجه اول بصری باشد. جدید تابع توضیحات صوتی به شما امکان می دهد یکی از آهنگ های صوتی را به عنوان یک تراک توضیحات صوتی (AD، توضیحات صوتی) حاشیه نویسی کنید، به بازیکنان این امکان را می دهد که آهنگ AD را در دسترس بینندگان قرار دهند.

درج متادیتا ID3

برای نشان دادن درج تبلیغات یا رویدادهای فراداده سفارشی به پخش‌کننده مشتری، پخش‌کننده‌ها اغلب از ابرداده‌های زمان‌بندی‌شده در ویدیو استفاده می‌کنند. علاوه بر حالت های سیگنال دهی SCTE-35، ما اکنون از آن نیز پشتیبانی می کنیم ID3v2 و دیگر طرح های سفارشی، توسط توسعه دهنده برنامه برای استفاده توسط برنامه مشتری تعریف شده است.

شرکای Microsoft Azure راه حل های سرتاسری را نشان می دهند

بیتموین Bitmovin Video Encoding و Bitmovin Video Player را برای Microsoft Azure معرفی می کند. مشتریان اکنون می توانند از این راه حل های رمزگذاری و پخش در Azure استفاده کنند و از ویژگی های پیشرفته ای مانند رمزگذاری سه مرحله ای، پشتیبانی از کدک AV1/VC، زیرنویس های چندزبانه و تجزیه و تحلیل ویدیوی از پیش یکپارچه برای QoS، تبلیغات و ردیابی ویدیو بهره مند شوند.

همیشگی پلتفرم مدیریت چرخه عمر کاربر خود را در Azure نشان می دهد. Evergent به عنوان ارائه‌دهنده پیشرو راه‌حل‌های مدیریت درآمد و چرخه عمر مشتری، از هوش مصنوعی Azure برای کمک به ارائه‌دهندگان سرگرمی ممتاز برای بهبود جذب و حفظ مشتری با ایجاد بسته‌های خدمات هدفمند و پیشنهادات در نقاط حساس چرخه عمر مشتری استفاده می‌کند.

هاوویژن سرویس مسیریابی رسانه هوشمند مبتنی بر ابر خود، SRT Hub را به نمایش خواهد گذاشت، که به مشتریان کمک می‌کند تا گردش‌های کاری پایان به انتها را با استفاده از تغییر شکل دهند. Azure Data Box Edge و تغییر گردش کار با Hublets از Avid، Telestream، Wowza، Cinegy و Make.tv.

SES مجموعه ای از خدمات رسانه ای درجه پخش را بر روی پلت فرم Azure برای مشتریان سرویس های رسانه ای ماهواره ای و مدیریت شده خود ایجاد کرده است. SES راه‌حل‌هایی را برای سرویس‌های پخش کامل مدیریت شده، از جمله پخش اصلی، پخش محلی، کشف و جایگزینی آگهی و کدگذاری چند کاناله ۲۴×۷ با کیفیت بالا در Azure نشان می‌دهد.

SyncWords ابزارهای ابری راحت و فناوری اتوماسیون امضا را در Azure در دسترس قرار می دهد. این پیشنهادات، سازمان‌های رسانه‌ای را آسان‌تر می‌کند تا به‌طور خودکار زیرنویس‌ها، از جمله زیرنویس‌های زبان خارجی را به جریان کار ویدیویی زنده و آفلاین خود در Azure اضافه کنند.
شرکت بین المللی تاتا الکسسییک شرکت خدمات فناوری، پلتفرم OTT SaaS TEPlay خود را در خدمات رسانه ای Azure یکپارچه کرده است تا محتوای OTT را از فضای ابری ارائه دهد. Tata Elxsi همچنین راه حل نظارت بر تجربه کیفیت چشم Falcon (QoE) خود را به Microsoft Azure آورده است و تجزیه و تحلیل و معیارهایی را برای تصمیم گیری ارائه می دهد.

Verizon Media پلتفرم استریم خود را به عنوان نسخه بتا در Azure در دسترس قرار می دهد. Verizon Media Platform یک راه حل OTT مدیریت شده در سطح سازمانی است که شامل DRM، درج آگهی، جلسات شخصی سازی شده یک به یک، جایگزینی محتوای پویا، و تحویل ویدیو می شود. این یکپارچه سازی گردش کار، پشتیبانی و مقیاس جهانی را ساده می کند و برخی از قابلیت های منحصر به فرد موجود در Azure را باز می کند.

منبع: www.habr.com

اضافه کردن نظر