Mozilla Common Voice 7.0 Atualização de voz

NVIDIA e Mozilla lançaram uma atualização para seus conjuntos de dados Common Voice, que incluem 182 amostras de fala de pessoas, um aumento de 25% em relação a 6 meses atrás. Os dados são publicados como domínio público (CC0). Os conjuntos propostos podem ser utilizados em sistemas de aprendizado de máquina para construir modelos de reconhecimento e síntese de fala.

Em comparação com a atualização anterior, o tamanho do material de fala do acervo aumentou de 9 para 13.9 mil horas de fala. O número de idiomas suportados aumentou de 60 para 76, incluindo pela primeira vez suporte para os idiomas bielorrusso, cazaque, uzbeque, búlgaro, armênio, azerbaijano e bashkir. O conjunto para a língua russa abrange 2136 participantes e 173 horas de material de fala (foram 1412 participantes e 111 horas), e para a língua ucraniana - 615 participantes e 66 horas (foram 459 participantes e 30 horas).

Mais de 75 mil pessoas participaram da elaboração dos materiais em inglês, ditando 2637 horas de fala confirmada (foram 66 mil participantes e 1686 horas). Curiosamente, a língua que ocupa o segundo lugar em termos de quantidade de dados acumulados é o Ruanda, para o qual foram recolhidas 2260 horas. Seguem-se o alemão (1040), o catalão (920) e o esperanto (840). Entre os que aumentam mais dinamicamente o tamanho dos dados de voz estão a língua tailandesa (aumento de 20 vezes na base, de 12 para 250 horas), Luganda (de 8 para 80 horas), Esperanto (de 100 para 840 horas) e Tamil ( de 24 a 220 horas).

Como parte de sua participação no projeto Common Voice, a NVIDIA preparou modelos treinados prontos para sistemas de aprendizado de máquina (suportados por PyTorch) com base nos dados coletados. Os modelos são distribuídos como parte do kit de ferramentas NVIDIA NeMo gratuito e aberto, que, por exemplo, já é utilizado nos serviços automatizados de voz do MTS e Sberbank. Os modelos destinam-se ao uso em sistemas de reconhecimento de fala, síntese de fala e processamento de linguagem natural, e podem ser úteis para pesquisadores que constroem sistemas de diálogo ativados por voz, plataformas de transcrição e centrais de atendimento automatizadas. Ao contrário dos projetos disponíveis anteriormente, os modelos publicados não se limitam ao reconhecimento da língua inglesa e abrangem uma variedade de línguas, sotaques e formas de fala.

Lembramos que o projeto Common Voice visa organizar um trabalho conjunto para acumular um banco de dados de padrões de voz que leve em consideração a diversidade de vozes e estilos de fala. Os usuários são convidados a expressar frases exibidas na tela ou avaliar a qualidade dos dados adicionados por outros usuários. O banco de dados acumulado com registros de diversas pronúncias de frases típicas da fala humana pode ser utilizado sem restrições em sistemas de aprendizado de máquina e em projetos de pesquisa.

Segundo o autor da biblioteca de reconhecimento contínuo de fala Vosk, as desvantagens do conjunto Common Voice são a unilateralidade do material de voz (a predominância de homens de 20 a 30 anos e a falta de material com vozes de mulheres , crianças e idosos), a falta de variabilidade no dicionário (repetição das mesmas frases) e a distribuição de gravações no distorcido formato MP3.

Fonte: opennet.ru

Adicionar um comentário