به روز رسانی Mozilla Common Voice 7.0

NVIDIA و Mozilla به‌روزرسانی مجموعه داده‌های Common Voice خود را منتشر کرده‌اند که شامل 182 نمونه گفتار افراد است که 25 درصد نسبت به 6 ماه قبل افزایش داشته است. داده ها به عنوان دامنه عمومی (CC0) منتشر می شود. مجموعه‌های پیشنهادی را می‌توان در سیستم‌های یادگیری ماشین برای ساخت مدل‌های تشخیص و سنتز گفتار استفاده کرد.

در مقایسه با آپدیت قبلی، حجم مطالب سخنرانی در مجموعه از 9 به 13.9 هزار ساعت سخنرانی افزایش یافته است. تعداد زبان های پشتیبانی شده از 60 به 76 افزایش یافته است که برای اولین بار از زبان های بلاروسی، قزاقستانی، ازبکی، بلغاری، ارمنی، آذربایجانی و باشکری پشتیبانی می شود. این مجموعه برای زبان روسی 2136 شرکت‌کننده و 173 ساعت مطالب سخنرانی (1412 شرکت‌کننده و 111 ساعت) و برای زبان اوکراینی - 615 شرکت‌کننده و 66 ساعت (459 شرکت‌کننده و 30 ساعت) را پوشش می‌دهد.

بیش از 75 هزار نفر در تهیه مطالب به زبان انگلیسی شرکت کردند و 2637 ساعت سخنرانی تایید شده را دیکته کردند (66 هزار شرکت کننده و 1686 ساعت). جالب اینجاست که زبانی که از نظر میزان داده های انباشته در رتبه دوم قرار دارد زبان روآندا است که برای آن 2260 ساعت جمع آوری شده است. پس از آن آلمانی (1040)، کاتالان (920) و اسپرانتو (840) قرار دارند. از جمله زبان‌های تایلندی (افزایش 20 برابری در پایه، از 12 به 250 ساعت)، لوگاندا (از 8 به 80 ساعت)، اسپرانتو (از 100 به 840 ساعت) و تامیل (از 24 به 220 ساعت) از جمله زبان‌های تایلندی (افزایش XNUMX برابری پایه، از XNUMX به XNUMX ساعت) می‌باشند. از XNUMX تا XNUMX ساعت).

NVIDIA به عنوان بخشی از مشارکت خود در پروژه Common Voice، بر اساس داده های جمع آوری شده، مدل های آموزش دیده آماده ای را برای سیستم های یادگیری ماشین (با پشتیبانی PyTorch) آماده کرد. این مدل‌ها به عنوان بخشی از جعبه ابزار رایگان و باز NVIDIA NeMo توزیع می‌شوند که، برای مثال، قبلاً در خدمات صوتی خودکار MTS و Sberbank استفاده می‌شود. این مدل‌ها برای استفاده در سیستم‌های تشخیص گفتار، سنتز گفتار و پردازش زبان طبیعی در نظر گرفته شده‌اند و ممکن است برای محققانی که سیستم‌های گفتگوی فعال‌شده با صدا، پلتفرم‌های رونویسی و مراکز تماس خودکار می‌سازند، مفید باشند. بر خلاف پروژه‌های موجود قبلی، مدل‌های منتشر شده به تشخیص زبان انگلیسی محدود نمی‌شوند و انواع زبان‌ها، لهجه‌ها و اشکال گفتار را پوشش می‌دهند.

به شما یادآوری می کنیم که پروژه Common Voice با هدف سازماندهی کار مشترک برای جمع آوری پایگاه داده ای از الگوهای صوتی است که تنوع صداها و سبک های گفتار را در نظر می گیرد. کاربران به عبارات صوتی نمایش داده شده بر روی صفحه یا ارزیابی کیفیت داده های اضافه شده توسط سایر کاربران دعوت می شوند. پایگاه داده انباشته شده با سوابق تلفظ های مختلف عبارات معمولی گفتار انسان را می توان بدون محدودیت در سیستم های یادگیری ماشینی و در پروژه های تحقیقاتی استفاده کرد.

به گفته نویسنده کتابخانه تشخیص گفتار پیوسته Vosk، معایب مجموعه صدای مشترک یک طرفه بودن مواد صوتی (غلبه مردان 20-30 ساله و کمبود مطالب با صدای زنان است. ، کودکان و سالمندان)، عدم تنوع در فرهنگ لغت (تکرار عبارات مشابه) و توزیع ضبط شده در فرمت MP3 تحریف کننده.

منبع: opennet.ru

اضافه کردن نظر