O código do sistema de reconhecimento e tradução de fala Whisper foi aberto

O projeto OpenAI, que desenvolve projetos públicos na área da inteligência artificial, publicou desenvolvimentos relacionados com o sistema de reconhecimento de voz Whisper. Alega-se que para a fala em inglês o sistema fornece níveis de confiabilidade e precisão de reconhecimento automático próximos ao reconhecimento humano. Foram abertos o código para a implementação de referência baseada no framework PyTorch e um conjunto de modelos já treinados e prontos para uso. O código está aberto sob a licença do MIT.

Para treinar o modelo foram utilizadas 680 mil horas de dados de fala, coletados em diversas coleções abrangendo diferentes idiomas e áreas temáticas. Cerca de 1/3 dos dados de fala envolvidos no treinamento estão em outros idiomas além do inglês. O sistema proposto lida corretamente com situações como pronúncia acentuada, ruído de fundo e uso de jargão técnico. Além de transcrever a fala em texto, o sistema também pode traduzir a fala de qualquer idioma para o inglês e detectar a aparência da fala no fluxo de áudio.

Os modelos são formados em duas representações: um modelo para a língua inglesa e um modelo multilíngue, que também suporta as línguas russa, ucraniana e bielorrussa. Por sua vez, cada representação é dividida em 5 opções, diferindo em tamanho e número de parâmetros abordados no modelo. Quanto maior o tamanho, maior a precisão e a qualidade do reconhecimento, mas também maiores serão os requisitos para o tamanho da memória de vídeo da GPU e menor será o desempenho. Por exemplo, a opção mínima inclui 39 milhões de parâmetros e requer 1 GB de memória de vídeo, e a máxima inclui 1550 milhões de parâmetros e requer 10 GB de memória de vídeo. A opção mínima é 32 vezes mais rápida que a máxima.

O código do sistema de reconhecimento e tradução de fala Whisper foi aberto

O sistema usa a arquitetura de rede neural Transformer, que inclui um codificador e um decodificador que interagem entre si. O áudio é dividido em pedaços de 30 segundos, que são convertidos em um espectrograma log-Mel e enviados ao codificador. A saída do codificador é enviada para o decodificador, que prevê uma representação de texto misturada com tokens especiais que permitem, em um modelo geral, resolver problemas como detecção de idioma, contabilização da cronologia da pronúncia de frases, transcrição de fala em diferentes idiomas e tradução para o inglês.

Fonte: opennet.ru

Adicionar um comentário