أصدرت Mozilla تحديثًا لمجموعات بيانات Common Voice، والتي تتضمن عينات نطق لما يقرب من 200 شخص. يتم نشر البيانات كمجال عام (CC0). يمكن استخدام المجموعات المقترحة في أنظمة التعلم الآلي لبناء نماذج التعرف على الكلام وتركيبه.
بالمقارنة مع التحديث السابق، زاد حجم مادة الكلام في المجموعة بنسبة 10٪ - من 18.2 إلى 20.2 ألف ساعة من الكلام. ارتفع عدد اللغات المدعومة من 87 إلى 93. بالنسبة لـ 27 لغة، تم تجميع أكثر من 100 ساعة من بيانات الكلام، ولمدة 9 - أكثر من 500 ساعة من بيانات الكلام. بالنسبة لـ 9 لغات، كان من الممكن أيضًا تحقيق حصة من خطاب الإناث لا تقل عن 45٪.
شارك أكثر من 81 ألف شخص في إعداد المواد باللغة الإنجليزية، حيث تم إملاء 2953 ساعة من الكلام (كان هناك 79 ألف مشارك و2886 ساعة). تغطي مجموعة اللغة البيلاروسية 6326 مشاركًا و1054 ساعة من مادة الكلام (كان هناك 6160 مشاركًا و987 ساعة)، والروسية - 2585 مشاركًا و201 ساعة (كان هناك 2452 مشاركًا و193 ساعة)، والأوزبكية - 1503 مشاركًا و231 ساعة ( كان هناك 1355 مشاركًا و227 ساعة)، اللغة الأوكرانية - 696 مشاركًا و79 ساعة (كان هناك 684 مشاركًا و76 ساعة).
ويهدف مشروع الصوت المشترك إلى تنظيم عمل مشترك لتجميع قاعدة بيانات للأنماط الصوتية التي تأخذ في الاعتبار تنوع الأصوات وأنماط الكلام. تتم دعوة المستخدمين إلى عرض العبارات الصوتية على الشاشة أو تقييم جودة البيانات التي يضيفها المستخدمون الآخرون. يمكن استخدام قاعدة البيانات المتراكمة التي تحتوي على سجلات النطق المختلفة للعبارات النموذجية للكلام البشري دون قيود في أنظمة التعلم الآلي وفي المشاريع البحثية.
المصدر: opennet.ru
