מוזילה פרסמה עדכון למערכי הנתונים שלה של Common Voice, הכולל דגימות הגייה של כ-200 איש. הנתונים פורסמו ברשות הציבור (CC0). ניתן להשתמש במערכי הנתונים המוצעים במערכות למידת מכונה לבניית מודלים של זיהוי וסינתזה של דיבור.
בהשוואה לעדכון הקודם, נפח נתוני הדיבור באוסף גדל ב-10% - מ-18.2 ל-20.2 אלף שעות דיבור. מספר השפות הנתמכות גדל מ-87 ל-93. נצברו יותר מ-27 שעות של נתוני דיבור עבור 100 שפות, ויותר מ-9 שעות של נתוני דיבור עבור 500 שפות. כמו כן, השגנו אוכלוסייה דוברת נשים של לפחות 9% עבור 45 שפות.
יותר מ-81 איש השתתפו בהכנת החומרים בשפה האנגלית, והכתיבו 2953 שעות של דיבור (לעומת 79 משתתפים ו-2886 שעות). מערך השפות הבלארוסיות כלל 6326 משתתפים ו-1054 שעות של חומר דיבור (לעומת 6160 משתתפים ו-987 שעות), רוסית - 2585 משתתפים ו-201 שעות (לעומת 2452 משתתפים ו-193 שעות), אוזבקית - 1503 משתתפים ו-231 שעות (לעומת 1355 משתתפים ו-227 שעות), ואוקראינית - 696 משתתפים ו-79 שעות (לעומת 684 משתתפים ו-76 שעות).
פרויקט הקול המשותף שם לו למטרה לארגן עבודה משותפת לצבירת מאגר תבניות קול שלוקח בחשבון את מגוון הקולות וסגנונות הדיבור. משתמשים מוזמנים לביטויים קוליים המוצגים על המסך או להעריך את איכות הנתונים שנוספו על ידי משתמשים אחרים. ניתן להשתמש במסד הנתונים המצטבר עם רשומות של הגיות שונות של ביטויים טיפוסיים של דיבור אנושי ללא הגבלות במערכות למידת מכונה ובפרויקטי מחקר.
מקור: OpenNet.ru
