Koden til Whisper-talegenkendelses- og oversættelsessystemet er blevet åbnet

OpenAI-projektet, der udvikler offentlige projekter inden for kunstig intelligens, har offentliggjort udviklinger relateret til Whisper-talegenkendelsessystemet. Det hævdes, at for tale på engelsk giver systemet niveauer af pålidelighed og nøjagtighed af automatisk genkendelse tæt på menneskelig genkendelse. Koden til referenceimplementeringen baseret på PyTorch-rammeværket og et sæt allerede trænede modeller, klar til brug, er blevet åbnet. Koden er åben under MIT-licensen.

For at træne modellen blev der brugt 680 tusind timers taledata, indsamlet fra flere samlinger, der dækker forskellige sprog og emneområder. Omkring 1/3 af de taledata, der er involveret i træning, er på andre sprog end engelsk. Det foreslåede system håndterer korrekt situationer såsom accentudtale, baggrundsstøj og brug af teknisk jargon. Ud over at transskribere tale til tekst, kan systemet også oversætte tale fra ethvert sprog til engelsk og registrere forekomsten af ​​tale i lydstrømmen.

Modellerne er dannet i to repræsentationer: en model for det engelske sprog og en flersproget model, som også understøtter russisk, ukrainsk og hviderussisk sprog. Til gengæld er hver repræsentation opdelt i 5 muligheder, der adskiller sig i størrelse og antal parametre, der er dækket af modellen. Jo større størrelsen er, jo større er nøjagtigheden og kvaliteten af ​​genkendelsen, men også desto højere krav til størrelsen på GPU-videohukommelsen og jo lavere ydeevne. For eksempel inkluderer minimumsindstillingen 39 millioner parametre og kræver 1 GB videohukommelse, og maksimumsindstillingen omfatter 1550 millioner parametre og kræver 10 GB videohukommelse. Minimumsmuligheden er 32 gange hurtigere end maksimum.

Koden til Whisper-talegenkendelses- og oversættelsessystemet er blevet åbnet

Systemet bruger Transformers neurale netværksarkitektur, som inkluderer en koder og dekoder, der interagerer med hinanden. Lyden er opdelt i 30-sekunders bidder, som konverteres til et log-Mel-spektrogram og sendes til encoderen. Indkoderens output sendes til dekoderen, som forudsiger en tekstrepræsentation blandet med specielle tokens, der i en generel model gør det muligt at løse problemer såsom sprogdetektion, tage højde for kronologien af ​​udtalen af ​​sætninger, transskription af tale i forskellige sprog og oversættelse til engelsk.

Kilde: opennet.ru

Tilføj en kommentar