Koden for Whisper talegjenkjennings- og oversettelsessystem er åpnet

OpenAI-prosjektet, som utvikler offentlige prosjekter innen kunstig intelligens, har publisert utviklinger knyttet til Whisper-talegjenkjenningssystemet. Det hevdes at for tale på engelsk gir systemet nivåer av pålitelighet og nøyaktighet for automatisk gjenkjenning nær menneskelig gjenkjennelse. Koden for referanseimplementeringen basert på PyTorch-rammeverket og et sett med allerede opplærte modeller, klare til bruk, er åpnet. Koden er åpen under MIT-lisensen.

For å trene modellen ble det brukt 680 tusen timer med taledata, samlet fra flere samlinger som dekker forskjellige språk og fagområder. Omtrent 1/3 av taledataene som er involvert i trening er på andre språk enn engelsk. Det foreslåtte systemet håndterer korrekt situasjoner som aksent uttale, bakgrunnsstøy og bruk av teknisk sjargong. I tillegg til å transkribere tale til tekst, kan systemet også oversette tale fra et hvilket som helst språk til engelsk og registrere utseendet til tale i lydstrømmen.

Modellene er dannet i to representasjoner: en modell for engelsk språk og en flerspråklig modell, som også støtter russisk, ukrainsk og hviterussisk språk. På sin side er hver representasjon delt inn i 5 alternativer, forskjellig i størrelse og antall parametere som dekkes i modellen. Jo større størrelsen er, desto større er nøyaktigheten og kvaliteten på gjenkjenningen, men også desto høyere krav til størrelsen på GPU-videominnet og jo lavere ytelse. For eksempel inkluderer minimumsalternativet 39 millioner parametere og krever 1 GB videominne, og maksimumet inkluderer 1550 millioner parametere og krever 10 GB videominne. Minimumsalternativet er 32 ganger raskere enn maksimumet.

Koden for Whisper talegjenkjennings- og oversettelsessystem er åpnet

Systemet bruker Transformers nevrale nettverksarkitektur, som inkluderer en koder og dekoder som samhandler med hverandre. Lyden er delt opp i 30 sekunders biter, som konverteres til et log-Mel-spektrogram og sendes til koderen. Utdataene fra koderen sendes til dekoderen, som forutsier en tekstrepresentasjon blandet med spesielle symboler som tillater, i en generell modell, å løse problemer som språkdeteksjon, regnskap for kronologien til uttalen av setninger, transkripsjon av tale i ulike språk, og oversettelse til engelsk.

Kilde: opennet.ru

Legg til en kommentar