Mozilla Common Voice 7.0 Yeniləmə

NVIDIA və Mozilla 182 nəfərin nitq nümunəsini özündə əks etdirən Common Voice verilənlər bazasında 25 ay əvvəllə müqayisədə 6% artım nümayiş etdirib. Məlumatlar ictimai domen kimi dərc olunur (CC0). Təklif olunan dəstlər nitqin tanınması və sintez modellərinin qurulması üçün maşın öyrənmə sistemlərində istifadə oluna bilər.

Əvvəlki yeniləmə ilə müqayisədə topludakı nitq materialının həcmi 9 min nitq saatından 13.9 min saata qədər artıb. Dəstəklənən dillərin sayı ilk dəfə belarus, qazax, özbək, bolqar, erməni, Azərbaycan və başqırd dillərinə dəstək də daxil olmaqla 60-dan 76-ya yüksəldi. Rus dili üzrə komplekt 2136 iştirakçı və 173 saat nitq materialını (1412 iştirakçı və 111 saat), Ukrayna dili üzrə isə 615 iştirakçı və 66 saatı (459 iştirakçı və 30 saat) əhatə edir.

İngilis dilində materialların hazırlanmasında 75 saat təsdiqlənmiş nitq diktə edən 2637 mindən çox insan iştirak edib (66 min iştirakçı və 1686 saat). Maraqlıdır ki, toplanmış məlumatların həcminə görə ikinci yerdə olan dil Ruandadır ki, bunun üçün 2260 saat toplanıb. Ondan sonra Almaniya (1040), Katalan (920) və Esperanto (840) gəlir. Səs məlumatlarının ölçüsünü ən dinamik şəkildə artıranlar arasında Tay dili (bazada 20 dəfə artım, 12 saatdan 250 saata qədər), Luqanda (8 saatdan 80 saata qədər), Esperanto (100 saatdan 840 saata qədər) və Tamil ( 24-dən 220-dək).saat).

Ümumi Səs layihəsində iştirakının bir hissəsi olaraq, NVIDIA toplanmış məlumatlar əsasında maşın öyrənmə sistemləri (PyTorch tərəfindən dəstəklənir) üçün hazır öyrədilmiş modellər hazırladı. Modellər, məsələn, MTS və Sberbank-ın avtomatlaşdırılmış səs xidmətlərində artıq istifadə olunan pulsuz və açıq NVIDIA NeMo alət dəstinin bir hissəsi kimi paylanır. Modellər nitqin tanınması, nitqin sintezi və təbii dil emalı sistemlərində istifadə üçün nəzərdə tutulub və səslə aktivləşdirilmiş dialoq sistemləri, transkripsiya platformaları və avtomatlaşdırılmış zəng mərkəzləri quran tədqiqatçılar üçün faydalı ola bilər. Əvvəllər mövcud olan layihələrdən fərqli olaraq, nəşr olunan modellər ingilis dilinin tanınması ilə məhdudlaşmır və müxtəlif dilləri, vurğuları və nitq formalarını əhatə edir.

Nəzərinizə çatdıraq ki, “Common Voice” layihəsi səslərin və nitq üslublarının müxtəlifliyini nəzərə alan səs nümunələri məlumat bazasının toplanması üzrə birgə işlərin təşkilinə yönəlib. İstifadəçilər ekranda göstərilən səsli ifadələrə dəvət olunur və ya digər istifadəçilər tərəfindən əlavə edilmiş məlumatların keyfiyyətini qiymətləndirirlər. İnsan nitqinin tipik ifadələrinin müxtəlif tələffüzlərinin qeydləri ilə yığılmış məlumat bazası maşın öyrənmə sistemlərində və tədqiqat layihələrində məhdudiyyət olmadan istifadə edilə bilər.

Vosk davamlı nitqin tanınması kitabxanasının müəllifinin fikrincə, Ümumi Səs dəstinin çatışmazlıqları səs materialının birtərəfli olmasıdır (20-30 yaşlı kişilərin üstünlük təşkil etməsi və qadınların səsləri ilə materialın olmaması). , uşaqlar və yaşlılar), lüğətdə dəyişkənliyin olmaması (eyni ifadələrin təkrarlanması) və yazıların təhrifedici MP3 formatında yayılması.

Mənbə: opennet.ru

Добавить комментарий