Le code du système de reconnaissance vocale et de traduction Whisper a été ouvert

Le projet OpenAI, qui développe des projets publics dans le domaine de l'intelligence artificielle, a publié des développements liés au système de reconnaissance vocale Whisper. Il est affirmé que pour la parole en anglais, le système offre des niveaux de fiabilité et de précision de reconnaissance automatique proches de ceux de la reconnaissance humaine. Le code de l'implémentation de référence basée sur le framework PyTorch et un ensemble de modèles déjà entraînés, prêts à l'emploi, ont été ouverts. Le code est ouvert sous licence MIT.

Pour entraîner le modèle, 680 1 heures de données vocales ont été utilisées, collectées à partir de plusieurs collections couvrant différentes langues et domaines. Environ 3/XNUMX des données vocales impliquées dans la formation sont dans des langues autres que l'anglais. Le système proposé gère correctement des situations telles que la prononciation accentuée, le bruit de fond et l'utilisation de jargon technique. En plus de transcrire la parole en texte, le système peut également traduire la parole de n'importe quelle langue vers l'anglais et détecter l'apparition de la parole dans le flux audio.

Les modèles sont constitués de deux représentations : un modèle pour la langue anglaise et un modèle multilingue, qui prend également en charge les langues russe, ukrainienne et biélorusse. À son tour, chaque représentation est divisée en 5 options, différant par la taille et le nombre de paramètres couverts dans le modèle. Plus la taille est grande, plus la précision et la qualité de la reconnaissance sont grandes, mais aussi plus les exigences en matière de taille de mémoire vidéo GPU sont élevées et plus les performances sont faibles. Par exemple, l'option minimale comprend 39 millions de paramètres et nécessite 1 Go de mémoire vidéo, et l'option maximale comprend 1550 10 millions de paramètres et nécessite 32 Go de mémoire vidéo. L'option minimale est XNUMX fois plus rapide que l'option maximale.

Le code du système de reconnaissance vocale et de traduction Whisper a été ouvert

Le système utilise l'architecture de réseau neuronal Transformer, qui comprend un encodeur et un décodeur qui interagissent les uns avec les autres. L'audio est décomposé en morceaux de 30 secondes, qui sont convertis en un spectrogramme log-Mel et envoyés à l'encodeur. La sortie de l'encodeur est envoyée au décodeur, qui prédit une représentation textuelle mélangée à des jetons spéciaux qui permettent, dans un modèle général, de résoudre des problèmes tels que la détection de la langue, la prise en compte de la chronologie de la prononciation des phrases, la transcription de la parole en différentes langues et traduction en anglais.

Source: opennet.ru

Ajouter un commentaire