NVIDIA investe US$ 1.5 milhão no projeto Mozilla Common Voice

A NVIDIA está investindo US$ 1.5 milhão no projeto Mozilla Common Voice. O interesse em sistemas de reconhecimento de voz decorre da previsão de que, nos próximos dez anos, a tecnologia de voz se tornará uma das principais formas de interação das pessoas com dispositivos que vão desde computadores e telefones até assistentes digitais e quiosques.

O desempenho dos sistemas de voz é altamente dependente do volume e da variedade de dados de voz disponíveis para treinar modelos de aprendizado de máquina. A tecnologia de voz atual concentra-se principalmente no reconhecimento da língua inglesa e não cobre a vasta gama de idiomas, sotaques e padrões de fala. O investimento ajudará a acelerar o crescimento dos dados de voz pública, envolver mais comunidades e voluntários e expandir o número de funcionários do projeto em tempo integral.

Lembramos que o projeto Common Voice visa organizar um trabalho conjunto para acumular um banco de dados de padrões de voz que leve em consideração a diversidade de vozes e estilos de fala. Os usuários são convidados a expressar frases exibidas na tela ou avaliar a qualidade dos dados adicionados por outros usuários. O banco de dados acumulado com registros de diversas pronúncias de frases típicas da fala humana pode ser utilizado sem restrições em sistemas de aprendizado de máquina e em projetos de pesquisa.

O conjunto Common Voice inclui atualmente exemplos de pronúncia de mais de 164 pessoas. Cerca de 9 mil horas de dados de voz foram acumuladas em 60 idiomas diferentes. O conjunto para a língua russa abrange 1412 participantes e 111 horas de material de fala, e para a língua ucraniana - 459 participantes e 30 horas. Para efeito de comparação, mais de 66 mil pessoas participaram da elaboração de materiais em inglês, ditando 1686 horas de fala verificada. Os conjuntos propostos podem ser utilizados em sistemas de aprendizado de máquina para construir modelos de reconhecimento e síntese de fala. Os dados são publicados como domínio público (CC0).

Segundo o autor da biblioteca de reconhecimento contínuo de fala Vosk, as desvantagens do conjunto Common Voice são a unilateralidade do material de voz (a predominância de homens de 20 a 30 anos e a falta de material com vozes de mulheres , crianças e idosos), a falta de variabilidade no dicionário (repetição das mesmas frases) e a distribuição de gravações no distorcido formato MP3.

Fonte: opennet.ru

Adicionar um comentário