NVIDIA و Mozilla بهروزرسانی مجموعه دادههای Common Voice خود را منتشر کردهاند که شامل 182 نمونه گفتار افراد است که 25 درصد نسبت به 6 ماه قبل افزایش داشته است. داده ها به عنوان دامنه عمومی (CC0) منتشر می شود. مجموعههای پیشنهادی را میتوان در سیستمهای یادگیری ماشین برای ساخت مدلهای تشخیص و سنتز گفتار استفاده کرد.
در مقایسه با آپدیت قبلی، حجم مطالب سخنرانی در مجموعه از 9 به 13.9 هزار ساعت سخنرانی افزایش یافته است. تعداد زبان های پشتیبانی شده از 60 به 76 افزایش یافته است که برای اولین بار از زبان های بلاروسی، قزاقستانی، ازبکی، بلغاری، ارمنی، آذربایجانی و باشکری پشتیبانی می شود. این مجموعه برای زبان روسی 2136 شرکتکننده و 173 ساعت مطالب سخنرانی (1412 شرکتکننده و 111 ساعت) و برای زبان اوکراینی - 615 شرکتکننده و 66 ساعت (459 شرکتکننده و 30 ساعت) را پوشش میدهد.
بیش از 75 هزار نفر در تهیه مطالب به زبان انگلیسی شرکت کردند و 2637 ساعت سخنرانی تایید شده را دیکته کردند (66 هزار شرکت کننده و 1686 ساعت). جالب اینجاست که زبانی که از نظر میزان داده های انباشته در رتبه دوم قرار دارد زبان روآندا است که برای آن 2260 ساعت جمع آوری شده است. پس از آن آلمانی (1040)، کاتالان (920) و اسپرانتو (840) قرار دارند. از جمله زبانهای تایلندی (افزایش 20 برابری در پایه، از 12 به 250 ساعت)، لوگاندا (از 8 به 80 ساعت)، اسپرانتو (از 100 به 840 ساعت) و تامیل (از 24 به 220 ساعت) از جمله زبانهای تایلندی (افزایش XNUMX برابری پایه، از XNUMX به XNUMX ساعت) میباشند. از XNUMX تا XNUMX ساعت).
NVIDIA به عنوان بخشی از مشارکت خود در پروژه Common Voice، بر اساس داده های جمع آوری شده، مدل های آموزش دیده آماده ای را برای سیستم های یادگیری ماشین (با پشتیبانی PyTorch) آماده کرد. این مدلها به عنوان بخشی از جعبه ابزار رایگان و باز NVIDIA NeMo توزیع میشوند که، برای مثال، قبلاً در خدمات صوتی خودکار MTS و Sberbank استفاده میشود. این مدلها برای استفاده در سیستمهای تشخیص گفتار، سنتز گفتار و پردازش زبان طبیعی در نظر گرفته شدهاند و ممکن است برای محققانی که سیستمهای گفتگوی فعالشده با صدا، پلتفرمهای رونویسی و مراکز تماس خودکار میسازند، مفید باشند. بر خلاف پروژههای موجود قبلی، مدلهای منتشر شده به تشخیص زبان انگلیسی محدود نمیشوند و انواع زبانها، لهجهها و اشکال گفتار را پوشش میدهند.
به شما یادآوری می کنیم که پروژه Common Voice با هدف سازماندهی کار مشترک برای جمع آوری پایگاه داده ای از الگوهای صوتی است که تنوع صداها و سبک های گفتار را در نظر می گیرد. کاربران به عبارات صوتی نمایش داده شده بر روی صفحه یا ارزیابی کیفیت داده های اضافه شده توسط سایر کاربران دعوت می شوند. پایگاه داده انباشته شده با سوابق تلفظ های مختلف عبارات معمولی گفتار انسان را می توان بدون محدودیت در سیستم های یادگیری ماشینی و در پروژه های تحقیقاتی استفاده کرد.
به گفته نویسنده کتابخانه تشخیص گفتار پیوسته Vosk، معایب مجموعه صدای مشترک یک طرفه بودن مواد صوتی (غلبه مردان 20-30 ساله و کمبود مطالب با صدای زنان است. ، کودکان و سالمندان)، عدم تنوع در فرهنگ لغت (تکرار عبارات مشابه) و توزیع ضبط شده در فرمت MP3 تحریف کننده.
منبع: opennet.ru