تحديث Mozilla Common Voice 16.0

قامت Mozilla بتحديث مجموعات بيانات Common Voice الخاصة بها لتشمل عينات نطق من أكثر من 200 شخص. يتم نشر البيانات كمجال عام (CC0). يمكن استخدام المجموعات المقترحة في أنظمة التعلم الآلي لبناء نماذج التعرف على الكلام وتركيبه. بالمقارنة مع التحديث السابق، ارتفع حجم مادة الكلام في المجموعة من 28.7 إلى 30.3 ألف ساعة كلام، منها 19.7 ألف ساعة اجتازت إجراء التحقق. زاد عدد اللغات المدعومة من 114 إلى 120 (تمت إضافة اليديشية واللاتغالية والليغورية والأوسيتيية والتيلجو وسييرا بويبلان الناهيوتل الغربية).

شارك 90.67 ألف شخص في إعداد المواد باللغة الإنجليزية، بإملاء 3438 ساعة من الكلام (كان هناك 88.9 ألف مشارك و3347 ساعة). تغطي مجموعة اللغة البيلاروسية 8249 مشاركًا و1641 ساعة من مادة الكلام (كان هناك 8205 مشاركًا و1632 ساعة)، اللغة الروسية - 3133 مشاركًا و265 ساعة (كان هناك 3053 مشاركًا و260 ساعة) الأوزبكية - 2151 مشاركًا و264 ساعة (كان هناك 2141 مشاركًا و 263 ساعة)، اللغة الأوكرانية - 1058 مشاركًا و 108 ساعات (كان هناك 1024 مشاركًا و 105 ساعات).

ويهدف مشروع الصوت المشترك إلى تنظيم عمل مشترك لتجميع قاعدة بيانات للأنماط الصوتية التي تأخذ في الاعتبار تنوع الأصوات وأنماط الكلام. تتم دعوة المستخدمين إلى عرض العبارات الصوتية على الشاشة أو تقييم جودة البيانات التي يضيفها المستخدمون الآخرون. يمكن استخدام قاعدة البيانات المتراكمة التي تحتوي على سجلات النطق المختلفة للعبارات النموذجية للكلام البشري دون قيود في أنظمة التعلم الآلي وفي المشاريع البحثية.

المصدر: opennet.ru

إضافة تعليق