Mozilla Common Voice 8.0 Atualização de voz

A Mozilla lançou uma atualização para seus conjuntos de dados Common Voice, que incluem amostras de pronúncia de quase 200 pessoas. Os dados são publicados como domínio público (CC0). Os conjuntos propostos podem ser utilizados em sistemas de aprendizado de máquina para construir modelos de reconhecimento e síntese de fala. Em comparação com a atualização anterior, o volume de material de fala do acervo aumentou 30% - de 13.9 para 18.2 mil horas de fala. O número de idiomas suportados aumentou de 67 para 87.

O conjunto para a língua russa abrange 2452 participantes e 193 horas de material de fala (foram 2136 participantes e 173 horas), para a língua bielorrussa - 6160 participantes e 987 horas (foram 3831 participantes e 356 horas), para a língua ucraniana - 684 participantes e 76 horas (foram 615 participantes e 66 horas). Mais de 79 mil pessoas participaram da elaboração dos materiais em inglês, ditando 2886 horas de fala confirmada (foram 75 mil participantes e 2637 horas).

Lembramos que o projeto Common Voice visa organizar um trabalho conjunto para acumular um banco de dados de padrões de voz que leve em consideração a diversidade de vozes e estilos de fala. Os usuários são convidados a expressar frases exibidas na tela ou avaliar a qualidade dos dados adicionados por outros usuários. O banco de dados acumulado com registros de diversas pronúncias de frases típicas da fala humana pode ser utilizado sem restrições em sistemas de aprendizado de máquina e em projetos de pesquisa. Segundo o autor da biblioteca de reconhecimento contínuo de fala Vosk, as desvantagens do conjunto Common Voice são a unilateralidade do material de voz (a predominância de homens de 20 a 30 anos e a falta de material com vozes de mulheres , crianças e idosos), a falta de variabilidade no dicionário (repetição das mesmas frases) e a distribuição das gravações no distorcido formato MP3.

Além disso, podemos destacar o lançamento do kit de ferramentas NVIDIA NeMo 1.6, que fornece métodos de aprendizado de máquina para a criação de sistemas de reconhecimento de fala, síntese de fala e processamento de linguagem natural. NeMo inclui modelos treinados prontos para uso para sistemas de aprendizado de máquina baseados na estrutura PyTorch, preparados pela NVIDIA usando dados de fala do Common Voice e cobrindo uma variedade de idiomas, sotaques e formas de fala. Os modelos podem ser úteis para pesquisadores que desenvolvem sistemas de diálogo baseados em voz, plataformas de transcrição e centrais de atendimento automatizadas. Por exemplo, NVIDIA NeMo é usado em serviços de voz automatizados do MTS e Sberbank. O código NeMo é escrito em Python usando PyTorch e distribuído sob a licença Apache 2.0.

Fonte: opennet.ru

Adicionar um comentário