Mozilla Common Voice 8.0 Yeniləmə

Mozilla 200-ə yaxın insanın tələffüz nümunələrini özündə əks etdirən Common Voice verilənlər bazasına yeniləmə buraxdı. Məlumatlar ictimai domen kimi dərc olunur (CC0). Təklif olunan dəstlər nitqin tanınması və sintez modellərinin qurulması üçün maşın öyrənmə sistemlərində istifadə oluna bilər. Əvvəlki yeniləmə ilə müqayisədə topluda nitq materialının həcmi 30% - 13.9 min nitq saatından 18.2 min saata qədər artıb. Dəstəklənən dillərin sayı 67-dən 87-yə yüksəldi.

Rus dili üzrə komplekt 2452 iştirakçını və 193 saat nitq materialını (2136 iştirakçı və 173 saat), belarus dili üçün 6160 iştirakçını və 987 saatı (3831 iştirakçı və 356 saat), Ukrayna dilini əhatə edir. 684 iştirakçı və 76 saat (615 iştirakçı və 66 saat). İngilis dilində materialların hazırlanmasında 79 saat təsdiqlənmiş nitq diktə edən 2886 mindən çox insan iştirak edib (75 min iştirakçı və 2637 saat).

Nəzərinizə çatdıraq ki, “Common Voice” layihəsi səslərin və nitq üslublarının müxtəlifliyini nəzərə alan səs nümunələrinin məlumat bazasının toplanması üzrə birgə işlərin təşkilinə yönəlib. İstifadəçilər ekranda göstərilən səsli ifadələrə dəvət olunur və ya digər istifadəçilər tərəfindən əlavə edilmiş məlumatların keyfiyyətini qiymətləndirirlər. İnsan nitqinin tipik ifadələrinin müxtəlif tələffüzlərinin qeydləri ilə yığılmış məlumat bazası maşın öyrənmə sistemlərində və tədqiqat layihələrində məhdudiyyət olmadan istifadə edilə bilər. Vosk davamlı nitqin tanınması kitabxanasının müəllifinin fikrincə, Ümumi Səs dəstinin çatışmazlıqları səs materialının birtərəfli olmasıdır (20-30 yaşlı kişilərin üstünlük təşkil etməsi və qadınların səsləri ilə materialın olmaması). , uşaqlar və yaşlılar), lüğətdə dəyişkənliyin olmaması (eyni ifadələrin təkrarlanması) və yazıların təhrifedici MP3 formatında yayılması.

Bundan əlavə, nitqin tanınması sistemləri, nitq sintezi və təbii dilin işlənməsi üçün maşın öyrənmə üsullarını təmin edən NVIDIA NeMo 1.6 alət dəstinin buraxılmasını qeyd edə bilərik. NeMo Common Voice nitq məlumatlarından istifadə etməklə NVIDIA tərəfindən hazırlanmış və müxtəlif dilləri, vurğuları və nitq formalarını əhatə edən PyTorch çərçivəsinə əsaslanan maşın öyrənmə sistemləri üçün istifadəyə hazır təlim keçmiş modelləri ehtiva edir. Modellər səs əsaslı dialoq sistemlərini, transkripsiya platformalarını və avtomatlaşdırılmış zəng mərkəzlərini inkişaf etdirən tədqiqatçılar üçün faydalı ola bilər. Məsələn, NVIDIA NeMo MTS və Sberbank-ın avtomatlaşdırılmış səs xidmətlərində istifadə olunur. NeMo kodu PyTorch istifadə edərək Python-da yazılır və Apache 2.0 lisenziyası altında paylanır.

Mənbə: opennet.ru

Добавить комментарий