De koade foar it Whisper-spraakherkennings- en oersetsysteem is iepene

It OpenAI-projekt, dat iepenbiere projekten ûntwikkelet op it mêd fan keunstmjittige yntelliginsje, hat ûntjouwings publisearre yn ferbân mei it Whisper-spraakherkenningssysteem. It wurdt beweare dat foar spraak yn it Ingelsk it systeem leveret nivo's fan betrouberens en krektens fan automatyske erkenning tichtby minsklike erkenning. De koade foar de referinsje-ymplemintaasje basearre op it PyTorch-ramt en in set fan al oplaat modellen, klear foar gebrûk, binne iepene. De koade is iepen ûnder de MIT-lisinsje.

Om it model op te trenen, waarden 680 tûzen oeren spraakgegevens brûkt, sammele út ferskate kolleksjes dy't ferskate talen en fakgebieten dekke. Sawat 1/3 fan 'e spraakgegevens belutsen by training is yn oare talen dan Ingelsk. It foarstelde systeem behannelet situaasjes lykas aksintuearre útspraak, eftergrûnlûd en it brûken fan technysk jargon korrekt. Neist it transkripearjen fan spraak yn tekst, kin it systeem ek spraak fan elke taal oersette yn it Ingelsk en it ferskinen fan spraak yn 'e audiostream detectearje.

De modellen binne foarme yn twa foarstellingen: in model foar de Ingelske taal en in meartalich model, dat ek de Russyske, Oekraynske en Wyt-Russyske talen stipet. Op syn beurt is elke fertsjintwurdiging ferdield yn 5 opsjes, ferskillend yn grutte en oantal parameters dy't yn it model behannele binne. Hoe grutter de grutte, hoe grutter de krektens en kwaliteit fan erkenning, mar ek hoe heger de easken foar de grutte fan it GPU-fideoûnthâld en hoe leger de prestaasjes. Bygelyks, de minimale opsje omfettet 39 miljoen parameters en fereasket 1 GB fideoûnthâld, en it maksimum befettet 1550 miljoen parameters en fereasket 10 GB fideoûnthâld. De minimale opsje is 32 kear flugger as it maksimum.

De koade foar it Whisper-spraakherkennings- en oersetsysteem is iepene

It systeem brûkt de Transformer-neurale netwurk-arsjitektuer, dy't in encoder en decoder omfettet dy't mei-inoar ynteraksje. De audio is opdield yn 30-sekonden brokken, dy't wurde omboud ta in log-Mel-spektrogram en stjoerd nei de encoder. De útfier fan 'e kodearder wurdt stjoerd nei de dekoder, dy't in tekstfertsjintwurdiging foarsizze mingd mei spesjale tokens dy't, yn ien algemien model, problemen kinne oplosse lykas taaldeteksje, rekkenjen mei de gronology fan' e útspraak fan frases, transkripsje fan spraak yn ferskate talen, en oersetting yn it Ingelsk.

Boarne: opennet.ru

Add a comment