🥇تحديث Mozilla Common Voice 7.0

أصدرت NVIDIA وMozilla تحديثًا لمجموعات بيانات Common Voice الخاصة بهما، والتي تتضمن 182 عينة من كلام الأشخاص، بزيادة 25% عما كانت عليه قبل 6 أشهر. يتم نشر البيانات كمجال عام (CC0). يمكن استخدام المجموعات المقترحة في أنظمة التعلم الآلي لبناء نماذج التعرف على الكلام وتركيبه.

ومقارنة بالتحديث السابق، زاد حجم مادة الكلام في المجموعة من 9 إلى 13.9 ألف ساعة كلام. ارتفع عدد اللغات المدعومة من 60 إلى 76، بما في ذلك لأول مرة دعم اللغات البيلاروسية والكازاخستانية والأوزبكية والبلغارية والأرمنية والأذربيجانية والبشكيرية. تغطي مجموعة اللغة الروسية 2136 مشاركًا و173 ساعة من مادة الكلام (كان هناك 1412 مشاركًا و111 ساعة)، ولللغة الأوكرانية - 615 مشاركًا و66 ساعة (كان هناك 459 مشاركًا و30 ساعة).

شارك أكثر من 75 ألف شخص في إعداد المواد باللغة الإنجليزية، بإملاء 2637 ساعة من الكلام المؤكد (كان هناك 66 ألف مشارك و1686 ساعة). ومن المثير للاهتمام أن اللغة التي تأتي في المركز الثاني من حيث كمية البيانات المتراكمة هي رواندا، حيث تم جمع 2260 ساعة. تليها الألمانية (1040)، والكتالونية (920)، والإسبرانتو (840). من بين اللغات الأكثر ديناميكيًا في حجم البيانات الصوتية هي اللغة التايلاندية (زيادة 20 ضعفًا في القاعدة، من 12 إلى 250 ساعة)، واللوغندية (من 8 إلى 80 ساعة)، والاسبرانتو (من 100 إلى 840 ساعة)، والتاميلية (من 24 إلى 220 ساعة) من XNUMX إلى XNUMX ساعة).ساعة).

وفي إطار مشاركتها في مشروع Common Voice، أعدت NVIDIA نماذج مدربة جاهزة لأنظمة التعلم الآلي (مدعومة من PyTorch) بناءً على البيانات المجمعة. يتم توزيع النماذج كجزء من مجموعة أدوات NVIDIA NeMo المجانية والمفتوحة، والتي، على سبيل المثال، تُستخدم بالفعل في الخدمات الصوتية الآلية لـ MTS وSberbank. تم تصميم النماذج للاستخدام في التعرف على الكلام، وتوليف الكلام، وأنظمة معالجة اللغة الطبيعية، وقد تكون مفيدة للباحثين الذين يقومون ببناء أنظمة الحوار المنشط بالصوت، ومنصات النسخ، ومراكز الاتصال الآلية. على عكس المشاريع المتاحة سابقًا، لا تقتصر النماذج المنشورة على التعرف على اللغة الإنجليزية وتغطي مجموعة متنوعة من اللغات واللهجات وأشكال الكلام.

ولنذكركم أن مشروع الصوت المشترك يهدف إلى تنظيم العمل المشترك لتجميع قاعدة بيانات للأنماط الصوتية التي تأخذ في الاعتبار تنوع الأصوات وأنماط الكلام. تتم دعوة المستخدمين إلى عرض العبارات الصوتية على الشاشة أو تقييم جودة البيانات التي يضيفها المستخدمون الآخرون. يمكن استخدام قاعدة البيانات المتراكمة التي تحتوي على سجلات النطق المختلفة للعبارات النموذجية للكلام البشري دون قيود في أنظمة التعلم الآلي وفي المشاريع البحثية.

وبحسب مؤلف مكتبة فوسك للتعرف المستمر على الكلام، فإن عيوب مجموعة الصوت المشترك هي أحادية المادة الصوتية (غلبة الذكور الذين تتراوح أعمارهم بين 20-30 سنة، وقلة المادة بأصوات النساء) والأطفال وكبار السن) وعدم التباين في القاموس (تكرار نفس العبارات) وتوزيع التسجيلات بصيغة MP3 المشوهة.

المصدر: opennet.ru