موزیلا بهروزرسانی مجموعه دادههای Common Voice خود را منتشر کرده است که شامل نمونههای تلفظی از نزدیک به 200 نفر است. داده ها به عنوان دامنه عمومی (CC0) منتشر می شود. مجموعههای پیشنهادی را میتوان در سیستمهای یادگیری ماشین برای ساخت مدلهای تشخیص و سنتز گفتار استفاده کرد. در مقایسه با به روز رسانی قبلی، حجم مطالب سخنرانی در مجموعه 30٪ افزایش یافت - از 13.9 به 18.2 هزار ساعت گفتار. تعداد زبان های پشتیبانی شده از 67 به 87 افزایش یافته است.
مجموعه برای زبان روسی شامل 2452 شرکتکننده و 193 ساعت مطالب گفتاری (2136 شرکتکننده و 173 ساعت)، برای زبان بلاروسی - 6160 شرکتکننده و 987 ساعت (3831 شرکتکننده و 356 ساعت) برای زبان اوکراینی - 684 شرکت کننده و 76 ساعت (615 شرکت کننده و 66 ساعت). بیش از 79 هزار نفر در تهیه مطالب به زبان انگلیسی شرکت کردند و 2886 ساعت سخنرانی تایید شده را دیکته کردند (75 هزار شرکت کننده و 2637 ساعت).
به شما یادآوری می کنیم که پروژه Common Voice با هدف سازماندهی کار مشترک برای جمع آوری پایگاه داده ای از الگوهای صوتی است که تنوع صداها و سبک های گفتار را در نظر می گیرد. کاربران به عبارات صوتی نمایش داده شده بر روی صفحه یا ارزیابی کیفیت داده های اضافه شده توسط سایر کاربران دعوت می شوند. پایگاه داده انباشته شده با سوابق تلفظ های مختلف عبارات معمولی گفتار انسان را می توان بدون محدودیت در سیستم های یادگیری ماشینی و در پروژه های تحقیقاتی استفاده کرد. به گفته نویسنده کتابخانه تشخیص گفتار پیوسته Vosk، معایب مجموعه صدای مشترک یک طرفه بودن مواد صوتی (غلبه مردان 20-30 ساله و کمبود مطالب با صدای زنان است. ، کودکان و سالمندان)، عدم تنوع در فرهنگ لغت (تکرار عبارات مشابه) و توزیع ضبط شده در فرمت MP3 تحریف کننده.
علاوه بر این، میتوان به انتشار جعبه ابزار NVIDIA NeMo 1.6 اشاره کرد که روشهای یادگیری ماشینی را برای ایجاد سیستمهای تشخیص گفتار، سنتز گفتار و پردازش زبان طبیعی ارائه میکند. NeMo شامل مدلهای آموزشدیده آماده برای سیستمهای یادگیری ماشینی مبتنی بر چارچوب PyTorch است که توسط NVIDIA با استفاده از دادههای گفتاری Common Voice تهیه شده و انواع زبانها، لهجهها و اشکال گفتار را پوشش میدهد. این مدلها ممکن است برای محققانی که سیستمهای گفتگوی مبتنی بر صدا، پلتفرمهای رونویسی و مراکز تماس خودکار را توسعه میدهند، مفید باشد. به عنوان مثال، NVIDIA NeMo در خدمات صوتی خودکار MTS و Sberbank استفاده می شود. کد NeMo در پایتون با استفاده از PyTorch نوشته شده و تحت مجوز Apache 2.0 توزیع شده است.
منبع: opennet.ru