به روز رسانی Mozilla Common Voice 8.0

موزیلا به‌روزرسانی مجموعه داده‌های Common Voice خود را منتشر کرده است که شامل نمونه‌های تلفظی از نزدیک به 200 نفر است. داده ها به عنوان دامنه عمومی (CC0) منتشر می شود. مجموعه‌های پیشنهادی را می‌توان در سیستم‌های یادگیری ماشین برای ساخت مدل‌های تشخیص و سنتز گفتار استفاده کرد. در مقایسه با به روز رسانی قبلی، حجم مطالب سخنرانی در مجموعه 30٪ افزایش یافت - از 13.9 به 18.2 هزار ساعت گفتار. تعداد زبان های پشتیبانی شده از 67 به 87 افزایش یافته است.

مجموعه برای زبان روسی شامل 2452 شرکت‌کننده و 193 ساعت مطالب گفتاری (2136 شرکت‌کننده و 173 ساعت)، برای زبان بلاروسی - 6160 شرکت‌کننده و 987 ساعت (3831 شرکت‌کننده و 356 ساعت) برای زبان اوکراینی - 684 شرکت کننده و 76 ساعت (615 شرکت کننده و 66 ساعت). بیش از 79 هزار نفر در تهیه مطالب به زبان انگلیسی شرکت کردند و 2886 ساعت سخنرانی تایید شده را دیکته کردند (75 هزار شرکت کننده و 2637 ساعت).

به شما یادآوری می کنیم که پروژه Common Voice با هدف سازماندهی کار مشترک برای جمع آوری پایگاه داده ای از الگوهای صوتی است که تنوع صداها و سبک های گفتار را در نظر می گیرد. کاربران به عبارات صوتی نمایش داده شده بر روی صفحه یا ارزیابی کیفیت داده های اضافه شده توسط سایر کاربران دعوت می شوند. پایگاه داده انباشته شده با سوابق تلفظ های مختلف عبارات معمولی گفتار انسان را می توان بدون محدودیت در سیستم های یادگیری ماشینی و در پروژه های تحقیقاتی استفاده کرد. به گفته نویسنده کتابخانه تشخیص گفتار پیوسته Vosk، معایب مجموعه صدای مشترک یک طرفه بودن مواد صوتی (غلبه مردان 20-30 ساله و کمبود مطالب با صدای زنان است. ، کودکان و سالمندان)، عدم تنوع در فرهنگ لغت (تکرار عبارات مشابه) و توزیع ضبط شده در فرمت MP3 تحریف کننده.

علاوه بر این، می‌توان به انتشار جعبه ابزار NVIDIA NeMo 1.6 اشاره کرد که روش‌های یادگیری ماشینی را برای ایجاد سیستم‌های تشخیص گفتار، سنتز گفتار و پردازش زبان طبیعی ارائه می‌کند. NeMo شامل مدل‌های آموزش‌دیده آماده برای سیستم‌های یادگیری ماشینی مبتنی بر چارچوب PyTorch است که توسط NVIDIA با استفاده از داده‌های گفتاری Common Voice تهیه شده و انواع زبان‌ها، لهجه‌ها و اشکال گفتار را پوشش می‌دهد. این مدل‌ها ممکن است برای محققانی که سیستم‌های گفتگوی مبتنی بر صدا، پلتفرم‌های رونویسی و مراکز تماس خودکار را توسعه می‌دهند، مفید باشد. به عنوان مثال، NVIDIA NeMo در خدمات صوتی خودکار MTS و Sberbank استفاده می شود. کد NeMo در پایتون با استفاده از PyTorch نوشته شده و تحت مجوز Apache 2.0 توزیع شده است.

منبع: opennet.ru

اضافه کردن نظر