NVIDIA inviste 1.5 millóns de dólares no proxecto Mozilla Common Voice

NVIDIA está a investir 1.5 millóns de dólares no proxecto Mozilla Common Voice. O interese polos sistemas de recoñecemento de voz prodúcese da previsión de que durante os próximos dez anos, a tecnoloxía de voz converterase nunha das principais formas en que as persoas interactúan con dispositivos que van desde ordenadores e teléfonos ata asistentes dixitais e quioscos.

O rendemento dos sistemas de voz depende moito do volume e da variedade de datos de voz dispoñibles para adestrar modelos de aprendizaxe automática. A tecnoloxía de voz actual céntrase principalmente no recoñecemento da lingua inglesa e non cobre a gran variedade de idiomas, acentos e patróns de fala. O investimento axudará a acelerar o crecemento dos datos de voz pública, involucrar máis comunidades e voluntarios e ampliar o número de persoal do proxecto a tempo completo.

Lembramos que o proxecto Common Voice vai dirixido a organizar un traballo conxunto para acumular unha base de datos de patróns de voz que teña en conta a diversidade de voces e estilos de fala. Os usuarios son invitados a frases de voz que se mostran na pantalla ou avaliar a calidade dos datos engadidos por outros usuarios. A base de datos acumulada con rexistros de varias pronuncias de frases típicas da fala humana pódese usar sen restricións en sistemas de aprendizaxe automática e en proxectos de investigación.

O conxunto de Voz común inclúe actualmente exemplos de pronuncia de máis de 164 persoas. Acumuláronse preto de 9 mil horas de datos de voz en 60 idiomas diferentes. O conxunto para a lingua rusa abrangue 1412 participantes e 111 horas de material de discurso, e para a lingua ucraína - 459 participantes e 30 horas. A modo de comparación, máis de 66 mil persoas participaron na elaboración de materiais en inglés, ditando 1686 horas de discurso verificado. Os conxuntos propostos pódense utilizar en sistemas de aprendizaxe automática para construír modelos de síntese e recoñecemento de voz. Os datos publícanse como dominio público (CC0).

Segundo o autor da biblioteca de recoñecemento de voz continuo de Vosk, as desvantaxes do conxunto de Voz común son a unilateralidade do material de voz (o predominio de homes de 20 a 30 anos e a falta de material con voces de mulleres). , nenos e maiores), a falta de variabilidade no dicionario (repetición das mesmas frases) e a distribución de gravacións en formato MP3 distorsionador.

Fonte: opennet.ru

Engadir un comentario