OpenAI-prosjektet, som utvikler offentlige prosjekter innen kunstig intelligens, har publisert utviklinger knyttet til Whisper-talegjenkjenningssystemet. Det hevdes at for tale på engelsk gir systemet nivåer av pålitelighet og nøyaktighet for automatisk gjenkjenning nær menneskelig gjenkjennelse. Koden for referanseimplementeringen basert på PyTorch-rammeverket og et sett med allerede opplærte modeller, klare til bruk, er åpnet. Koden er åpen under MIT-lisensen.
For å trene modellen ble det brukt 680 tusen timer med taledata, samlet fra flere samlinger som dekker forskjellige språk og fagområder. Omtrent 1/3 av taledataene som er involvert i trening er på andre språk enn engelsk. Det foreslåtte systemet håndterer korrekt situasjoner som aksent uttale, bakgrunnsstøy og bruk av teknisk sjargong. I tillegg til å transkribere tale til tekst, kan systemet også oversette tale fra et hvilket som helst språk til engelsk og registrere utseendet til tale i lydstrømmen.
Modellene er dannet i to representasjoner: en modell for engelsk språk og en flerspråklig modell, som også støtter russisk, ukrainsk og hviterussisk språk. På sin side er hver representasjon delt inn i 5 alternativer, forskjellig i størrelse og antall parametere som dekkes i modellen. Jo større størrelsen er, desto større er nøyaktigheten og kvaliteten på gjenkjenningen, men også desto høyere krav til størrelsen på GPU-videominnet og jo lavere ytelse. For eksempel inkluderer minimumsalternativet 39 millioner parametere og krever 1 GB videominne, og maksimumet inkluderer 1550 millioner parametere og krever 10 GB videominne. Minimumsalternativet er 32 ganger raskere enn maksimumet.
Systemet bruker Transformers nevrale nettverksarkitektur, som inkluderer en koder og dekoder som samhandler med hverandre. Lyden er delt opp i 30 sekunders biter, som konverteres til et log-Mel-spektrogram og sendes til koderen. Utdataene fra koderen sendes til dekoderen, som forutsier en tekstrepresentasjon blandet med spesielle symboler som tillater, i en generell modell, å løse problemer som språkdeteksjon, regnskap for kronologien til uttalen av setninger, transkripsjon av tale i ulike språk, og oversettelse til engelsk.
Kilde: opennet.ru