NVIDIA Mozilla Common Voice жобасына 1.5 миллион доллар инвестициялайды

NVIDIA Mozilla Common Voice жобасына 1.5 миллион доллар инвестициялайды. Сөйлеуді тану жүйелеріне қызығушылық алдағы он жылда дауыс технологиясы адамдардың компьютерлер мен телефондардан бастап сандық көмекшілер мен дүңгіршектерге дейінгі құрылғылармен өзара әрекеттесуінің негізгі тәсілдерінің біріне айналады деген болжамнан туындайды.

Дауыстық жүйелердің өнімділігі машиналық оқыту үлгілерін үйрету үшін қолжетімді дауыс деректерінің көлемі мен әртүрлілігіне қатты тәуелді. Бүгінгі дауыс технологиясы ең алдымен ағылшын тілін тануға бағытталған және тілдердің, екпіндердің және сөйлеу үлгілерінің кең ауқымын қамтымайды. Инвестиция қоғамдық дауыс деректерінің өсуін жеделдетуге, көбірек қауымдастықтар мен волонтерлерді тартуға және жобаның толық уақытты қызметкерлері санын кеңейтуге көмектеседі.

Естеріңізге сала кетейік, «Common Voice» жобасы дауыстар мен сөйлеу мәнерлерінің алуан түрлілігін ескеретін дауыс үлгілерінің дерекқорын жинақтау бойынша бірлескен жұмысты ұйымдастыруға бағытталған. Пайдаланушылар экранда көрсетілетін дауыстық сөйлемдерге немесе басқа пайдаланушылар қосқан деректердің сапасын бағалауға шақырылады. Адам сөйлеуінің типтік сөз тіркестерінің әртүрлі айтылу жазбалары бар жинақталған мәліметтер базасын машиналық оқыту жүйелерінде және ғылыми жобаларда шектеусіз пайдалануға болады.

Common Voice жиынтығы қазіргі уақытта 164 9-нан астам адамның айтылу мысалдарын қамтиды. 60 түрлі тілде 1412 мың сағатқа жуық дауыстық деректер жинақталған. Орыс тіліне арналған жиынтықта 111 қатысушы мен 459 сағат сөйлеу материалы, ал украин тілі бойынша – 30 қатысушы және 66 сағат. Салыстыру үшін, ағылшын тілінде материалдарды дайындауға 1686 мыңнан астам адам қатысып, 0 сағат тексерілген сөйлеуді диктант етті. Ұсынылған жинақтарды сөзді тану және синтездеу үлгілерін құру үшін машиналық оқыту жүйелерінде пайдалануға болады. Деректер қоғамдық домен (CCXNUMX) ретінде жарияланады.

Vosk үздіксіз сөйлеуді тану кітапханасының авторының айтуынша, Common Voice жиынтығының кемшіліктері дауыс материалының біржақтылығы (20-30 жастағы ер адамдардың басым болуы және әйелдер дауысы бар материалдың болмауы) болып табылады. , балалар мен қарт адамдар), сөздікте вариацияның жоқтығы (бірдей сөз тіркестерінің қайталануы) және MP3 форматындағы бұрмаланған жазбалардың таралуы.

Ақпарат көзі: opennet.ru

пікір қалдыру