Koden för Whisper-taligenkännings- och översättningssystemet har öppnats

OpenAI-projektet, som utvecklar offentligt tillgängliga projekt inom artificiell intelligens, har publicerat utvecklingar relaterade till röstigenkänningssystemet Whisper. Det hävdas att systemet för tal på engelska erbjuder nivåer av tillförlitlighet och noggrannhet för automatisk igenkänning som ligger nära mänsklig igenkänning. Koden för referensimplementeringen baserad på PyTorch-ramverket och en uppsättning redan tränade modeller redo för användning är öppna. Koden är öppen under MIT-licensen.

Modellen tränades med hjälp av 680 1 timmar taldata insamlade från flera samlingar som täcker olika språk och ämnesområden. Ungefär 3/XNUMX av taldatan som används i träningen kommer från andra språk än engelska. Det föreslagna systemet hanterar korrekt situationer som accentuttal, förekomst av bakgrundsljud och användning av teknisk jargong. Förutom att transkribera tal till text kan systemet även översätta tal från vilket språk som helst till engelska och upptäcka förekomsten av tal i ljudströmmen.

Modellerna är utformade i två representationer: en modell för engelska språket och en flerspråkig modell som stöder ryska, ukrainska och vitryska. Varje representation är i sin tur uppdelad i 5 varianter som skiljer sig åt i storlek och antal parametrar som modellen täcker. Ju större storlek, desto högre noggrannhet och kvalitet på igenkänningen, men också högre krav på storleken på GPU-videominnet och lägre prestanda. Till exempel innehåller minimivarianten 39 miljoner parametrar och kräver 1 GB videominne, och maximumvarianten innehåller 1550 miljoner parametrar och kräver 10 GB videominne. Minimivarianten är 32 gånger snabbare än maximumvarianten.

Koden för Whisper-taligenkännings- och översättningssystemet har öppnats

Systemet använder Transformers neurala nätverksarkitektur, som inkluderar en interagerande kodare och avkodare. Ljudet bryts ner i 30-sekunders bitar, som konverteras till ett log-Mel-spektrogram och skickas till kodaren. Kodarens utdata skickas till avkodaren, som förutsäger en textrepresentation blandad med speciella tokens som gör det möjligt för en gemensam modell att lösa problem som språkdetektering, hänsyn till kronologin för uttalet av fraser, transkription av tal på olika språk och översättning till engelska.

Källa: opennet.ru

Köp pålitlig hosting för webbplatser med DDoS-skydd, VPS VDS-servrar 🔥 Köp pålitlig webbhotell med DDoS-skydd, VPS VDS-servrar | ProHoster