تحديث Mozilla Common Voice 12.0

قامت Mozilla بتحديث مجموعات بيانات Common Voice الخاصة بها لتشمل عينات نطق من أكثر من 200 شخص. يتم نشر البيانات كمجال عام (CC0). يمكن استخدام المجموعات المقترحة في أنظمة التعلم الآلي لبناء نماذج التعرف على الكلام وتركيبه.

ومقارنة بالتحديث السابق، ارتفع حجم مادة الكلام في المجموعة من 23.8 إلى 25.8 ألف ساعة كلام. شارك أكثر من 88 ألف شخص في إعداد المواد باللغة الإنجليزية، حيث تم إملاء 3161 ساعة من الكلام (كان هناك 84 ألف مشارك و3098 ساعة). تغطي مجموعة اللغة البيلاروسية 7903 مشاركًا و1419 ساعة من مادة الكلام (كان هناك 6965 مشاركًا و1217 ساعة)، والروسية - 2815 مشاركًا و229 ساعة (كان هناك 2731 مشاركًا و215 ساعة)، والأوزبكية - 2092 مشاركًا و262 ساعة ( كان هناك 2025 مشاركًا و258 ساعة)، اللغة الأوكرانية - 780 مشاركًا و87 ساعة (كان هناك 759 مشاركًا و87 ساعة).

ويهدف مشروع الصوت المشترك إلى تنظيم عمل مشترك لتجميع قاعدة بيانات للأنماط الصوتية التي تأخذ في الاعتبار تنوع الأصوات وأنماط الكلام. تتم دعوة المستخدمين إلى عرض العبارات الصوتية على الشاشة أو تقييم جودة البيانات التي يضيفها المستخدمون الآخرون. يمكن استخدام قاعدة البيانات المتراكمة التي تحتوي على سجلات النطق المختلفة للعبارات النموذجية للكلام البشري دون قيود في أنظمة التعلم الآلي وفي المشاريع البحثية.

المصدر: opennet.ru

إضافة تعليق