Koden för Whisper-taligenkännings- och översättningssystemet har öppnats

OpenAI-projektet, som utvecklar offentliga projekt inom området artificiell intelligens, har publicerat utvecklingar relaterade till Whisper-taligenkänningssystemet. Det hävdas att för tal på engelska ger systemet nivåer av tillförlitlighet och noggrannhet för automatisk igenkänning nära mänsklig igenkänning. Koden för referensimplementeringen baserad på PyTorch-ramverket och en uppsättning redan utbildade modeller, redo att användas, har öppnats. Koden är öppen under MIT-licensen.

För att träna modellen användes 680 tusen timmars taldata, insamlad från flera samlingar som täcker olika språk och ämnesområden. Cirka 1/3 av taldata som ingår i utbildningen är på andra språk än engelska. Det föreslagna systemet hanterar korrekt situationer som accentuerat uttal, bakgrundsljud och användning av teknisk jargong. Förutom att transkribera tal till text, kan systemet även översätta tal från vilket språk som helst till engelska och upptäcka förekomsten av tal i ljudströmmen.

Modellerna är utformade i två representationer: en modell för det engelska språket och en flerspråkig modell, som även stöder ryska, ukrainska och vitryska språk. I sin tur är varje representation uppdelad i 5 alternativ, olika i storlek och antal parametrar som omfattas av modellen. Ju större storlek, desto större noggrannhet och kvalitet på igenkänningen, men också desto högre krav på storleken på GPU-videominnet och desto lägre prestanda. Till exempel inkluderar minimialternativet 39 miljoner parametrar och kräver 1 GB videominne, och det maximala inkluderar 1550 miljoner parametrar och kräver 10 GB videominne. Det minsta alternativet är 32 gånger snabbare än det högsta.

Koden för Whisper-taligenkännings- och översättningssystemet har öppnats

Systemet använder transformatorns neurala nätverksarkitektur, som inkluderar en kodare och avkodare som interagerar med varandra. Ljudet är uppdelat i 30-sekundersbitar, som omvandlas till ett log-Mel-spektrogram och skickas till kodaren. Utdata från kodaren skickas till avkodaren, som förutsäger en textrepresentation blandad med speciella tokens som gör det möjligt att, i en generell modell, lösa problem som språkdetektering, ta hänsyn till kronologin för uttalet av fraser, transkription av tal i olika språk och översättning till engelska.

Källa: opennet.ru

Lägg en kommentar