NVIDIA تستثمر 1.5 مليون دولار في مشروع Mozilla Common Voice

تستثمر NVIDIA مبلغ 1.5 مليون دولار في مشروع Mozilla Common Voice. ينبع الاهتمام بأنظمة التعرف على الكلام من التنبؤ بأن تكنولوجيا الصوت ستصبح خلال السنوات العشر القادمة إحدى الطرق الرئيسية التي يتفاعل بها الأشخاص مع الأجهزة التي تتراوح من أجهزة الكمبيوتر والهواتف إلى المساعدين الرقميين والأكشاك.

يعتمد أداء الأنظمة الصوتية بشكل كبير على حجم وتنوع البيانات الصوتية المتاحة لتدريب نماذج التعلم الآلي. تركز تكنولوجيا الصوت اليوم في المقام الأول على التعرف على اللغة الإنجليزية ولا تغطي مجموعة واسعة من اللغات واللهجات وأنماط الكلام. سيساعد هذا الاستثمار في تسريع نمو البيانات الصوتية العامة، وإشراك المزيد من المجتمعات والمتطوعين، وزيادة عدد موظفي المشروع بدوام كامل.

ولنذكركم أن مشروع الصوت المشترك يهدف إلى تنظيم العمل المشترك لتجميع قاعدة بيانات للأنماط الصوتية التي تأخذ في الاعتبار تنوع الأصوات وأنماط الكلام. تتم دعوة المستخدمين إلى عرض العبارات الصوتية على الشاشة أو تقييم جودة البيانات التي يضيفها المستخدمون الآخرون. يمكن استخدام قاعدة البيانات المتراكمة التي تحتوي على سجلات النطق المختلفة للعبارات النموذجية للكلام البشري دون قيود في أنظمة التعلم الآلي وفي المشاريع البحثية.

تتضمن مجموعة الصوت العام حاليًا أمثلة للنطق من أكثر من 164 شخص. تم تجميع حوالي 9 آلاف ساعة من البيانات الصوتية بـ 60 لغة مختلفة. تغطي المجموعة الخاصة باللغة الروسية 1412 مشاركًا و111 ساعة من مادة الكلام، وبالنسبة للغة الأوكرانية - 459 مشاركًا و30 ساعة. وللمقارنة، شارك أكثر من 66 ألف شخص في إعداد المواد باللغة الإنجليزية، وأمليوا 1686 ساعة من الكلام الذي تم التحقق منه. يمكن استخدام المجموعات المقترحة في أنظمة التعلم الآلي لبناء نماذج التعرف على الكلام وتركيبه. يتم نشر البيانات كمجال عام (CC0).

وبحسب مؤلف مكتبة فوسك للتعرف المستمر على الكلام، فإن عيوب مجموعة الصوت المشترك هي أحادية المادة الصوتية (غلبة الذكور الذين تتراوح أعمارهم بين 20-30 سنة، وقلة المادة بأصوات النساء) والأطفال وكبار السن) وعدم التباين في القاموس (تكرار نفس العبارات) وتوزيع التسجيلات بصيغة MP3 المشوهة.

المصدر: opennet.ru

إضافة تعليق