Collabora پیادهسازی یک سیستم یادگیری ماشینی را برای بهبود راندمان فشردهسازی ویدئو کنفرانس منتشر کرده است که در صورت انتقال ویدئو با چهره شرکتکننده اجازه میدهد تا پهنای باند مورد نیاز را تا 10 برابر کاهش دهد و کیفیت را در سطح H.264 حفظ کند. . پیاده سازی در پایتون با استفاده از چارچوب PyTorch نوشته شده است و تحت مجوز GPLv3 باز است.
این روش به شما امکان می دهد جزئیات صورت را که در حین انتقال از بین رفته اند را با سطح بالایی از فشرده سازی بازسازی کنید. مدل یادگیری ماشینی یک انیمیشن سر سخنگو را بر اساس تصویر صورت با کیفیت بالا و ویدیوی حاصل که به طور جداگانه ارسال میشود، ایجاد میکند و تغییرات حالت چهره و موقعیت سر را در ویدیو ردیابی میکند. در سمت فرستنده، ویدیو با نرخ بیت بسیار پایین منتقل می شود و از طرف گیرنده توسط یک سیستم یادگیری ماشینی پردازش می شود. برای افزایش بیشتر کیفیت، ویدئوی تولید شده را می توان با استفاده از مدل Super-Resolution پردازش کرد.
منبع: opennet.ru