به روز رسانی Mozilla Common Voice 16.0

موزیلا مجموعه داده های Common Voice خود را به روز کرده است تا نمونه های تلفظ بیش از 200 نفر را شامل شود. داده ها به عنوان دامنه عمومی (CC0) منتشر می شود. مجموعه‌های پیشنهادی را می‌توان در سیستم‌های یادگیری ماشین برای ساخت مدل‌های تشخیص و سنتز گفتار استفاده کرد. در مقایسه با به روز رسانی قبلی، حجم مطالب گفتار در مجموعه از 28.7 به 30.3 هزار ساعت سخنرانی افزایش یافته است که از این میزان 19.7 هزار ساعت مراحل تأیید را پشت سر گذاشته است. تعداد زبان های پشتیبانی شده از 114 به 120 افزایش یافت (یدی، لاتگالی، لیگوری، اوستیایی، تلوگو و غرب سیرا پوئبلان ناهواتل اضافه شد).

90.67 هزار نفر در تهیه مطالب به زبان انگلیسی شرکت کردند و 3438 ساعت سخنرانی را دیکته کردند (88.9 هزار شرکت کننده و 3347 ساعت). این مجموعه برای زبان بلاروسی شامل 8249 شرکت‌کننده و 1641 ساعت مطالب سخنرانی (8205 شرکت‌کننده و 1632 ساعت)، روسی - 3133 شرکت‌کننده و 265 ساعت (3053 شرکت‌کننده و 260 ساعت)، ازبکی - 2151 شرکت‌کننده و 264 ساعت است. 2141 شرکت‌کننده و 263 ساعت، زبان اوکراینی - 1058 شرکت‌کننده و 108 ساعت (1024 شرکت‌کننده و 105 ساعت وجود داشت).

هدف پروژه Common Voice سازماندهی کار مشترک برای جمع آوری پایگاه داده ای از الگوهای صوتی است که تنوع صداها و سبک های گفتار را در نظر می گیرد. کاربران به عبارات صوتی نمایش داده شده بر روی صفحه یا ارزیابی کیفیت داده های اضافه شده توسط سایر کاربران دعوت می شوند. پایگاه داده انباشته شده با سوابق تلفظ های مختلف عبارات معمولی گفتار انسان را می توان بدون محدودیت در سیستم های یادگیری ماشین و در پروژه های تحقیقاتی استفاده کرد.

منبع: opennet.ru

خرید هاست قابل اعتماد برای سایت های دارای حفاظت DDoS، سرورهای VPS VDS 🔥 خرید هاستینگ معتبر با محافظت در برابر حملات DDoS، سرورهای VPS و VDS | ProHoster