NVIDIA Mozilla Common Voice layihəsinə 1.5 milyon dollar sərmayə qoyur

NVIDIA Mozilla Common Voice layihəsinə 1.5 milyon dollar sərmayə qoyur. Nitqin tanınması sistemlərinə maraq yaxın on il ərzində səs texnologiyasının insanların kompüter və telefonlardan tutmuş rəqəmsal köməkçilərə və köşklərə qədər olan cihazlarla qarşılıqlı əlaqəsinin əsas üsullarından birinə çevriləcəyi proqnozundan irəli gəlir.

Səs sistemlərinin performansı maşın öyrənmə modellərini öyrətmək üçün mövcud səs məlumatlarının həcmindən və müxtəlifliyindən çox asılıdır. Bugünkü səs texnologiyası ilk növbədə ingilis dilinin tanınmasına diqqət yetirir və dillərin, vurğuların və nitq nümunələrinin geniş spektrini əhatə etmir. İnvestisiya ictimai səs məlumatlarının böyüməsini sürətləndirməyə, daha çox icma və könüllüləri cəlb etməyə və layihənin tam ştatlı işçilərinin sayını genişləndirməyə kömək edəcək.

Nəzərinizə çatdıraq ki, “Common Voice” layihəsi səslərin və nitq üslublarının müxtəlifliyini nəzərə alan səs nümunələri məlumat bazasının toplanması üzrə birgə işlərin təşkilinə yönəlib. İstifadəçilər ekranda göstərilən səsli ifadələrə dəvət olunur və ya digər istifadəçilər tərəfindən əlavə edilmiş məlumatların keyfiyyətini qiymətləndirirlər. İnsan nitqinin tipik ifadələrinin müxtəlif tələffüzlərinin qeydləri ilə yığılmış məlumat bazası maşın öyrənmə sistemlərində və tədqiqat layihələrində məhdudiyyət olmadan istifadə edilə bilər.

Ümumi Səs dəstinə hazırda 164-dən çox insanın tələffüz nümunələri daxildir. 9 müxtəlif dildə 60 min saata yaxın səs məlumatı toplanıb. Rus dili üzrə komplekt 1412 iştirakçını və 111 saat nitq materialını, Ukrayna dili üçün isə 459 iştirakçını və 30 saatı əhatə edir. Müqayisə üçün qeyd edək ki, ingilis dilində materialların hazırlanmasında 66 mindən çox insan iştirak edib, 1686 saat yoxlanılmış nitq diktə edib. Təklif olunan dəstlər nitqin tanınması və sintez modellərinin qurulması üçün maşın öyrənmə sistemlərində istifadə oluna bilər. Məlumatlar ictimai domen kimi dərc olunur (CC0).

Vosk davamlı nitqin tanınması kitabxanasının müəllifinin fikrincə, Ümumi Səs dəstinin çatışmazlıqları səs materialının birtərəfli olmasıdır (20-30 yaşlı kişilərin üstünlük təşkil etməsi və qadınların səsləri ilə materialın olmaması). , uşaqlar və yaşlılar), lüğətdə dəyişkənliyin olmaması (eyni ifadələrin təkrarlanması) və yazıların təhrifedici MP3 formatında yayılması.

Mənbə: opennet.ru

Добавить комментарий