گوگل داده ها و مدل یادگیری ماشینی را برای جداسازی صداها منتشر می کند

گوگل опубликовала یک پایگاه داده مشروح از صداهای ترکیبی مرجع که می تواند در سیستم های یادگیری ماشینی مورد استفاده قرار گیرد تا صداهای مختلط دلخواه را به اجزای جداگانه آنها جدا کند. یک مدل یادگیری ماشین عمیق عمومی (TDCN++) نیز منتشر شده است که می تواند در Tensorflow برای جداسازی صداها استفاده شود. داده ها بر اساس مجموعه تهیه شده است freesound.org и منتشر شده تحت مجوز CC BY 4.0.

پروژه ارائه شده FUSS (جداسازی صدای جهانی رایگان) با هدف حل مشکل جداسازی هر تعداد صداهای دلخواه است که ماهیت آن از قبل مشخص نیست. سایر سیستم های مشابه عموماً به وظیفه تمایز بین صداهای خاص مانند صداها و غیر صداها یا افراد مختلف که صحبت می کنند محدود می شوند.

پایگاه داده شامل حدود 20 هزار مخلوط است. این کیت همچنین شامل پاسخ‌های ضربه‌ای اتاق از پیش محاسبه‌شده با استفاده از شبیه‌ساز اتاق سفارشی است که بازتاب دیوار، مکان منبع صدا و مکان میکروفون را در نظر می‌گیرد.

منبع: opennet.ru

اضافه کردن نظر