De code voor het Whisper spraakherkennings- en vertaalsysteem is geopend

Het OpenAI-project, dat publiekelijk beschikbare projecten op het gebied van kunstmatige intelligentie ontwikkelt, heeft ontwikkelingen gepubliceerd met betrekking tot het Whisper-spraakherkenningssysteem. Er wordt beweerd dat het systeem voor Engelstalige spraak een betrouwbaarheid en nauwkeurigheid van automatische herkenning biedt die dicht in de buurt komt van menselijke herkenning. De code van de referentie-implementatie op basis van het PyTorch-framework en een set reeds getrainde modellen die klaar zijn voor gebruik, zijn openbaar. De code is openbaar onder de MIT-licentie.

Om het model te trainen werden 680 uur aan spraakgegevens gebruikt, verzameld uit verschillende collecties over verschillende talen en vakgebieden. Ongeveer 1/3 van de spraakgegevens die bij training betrokken zijn, zijn in andere talen dan Engels. Het voorgestelde systeem gaat correct om met situaties zoals uitspraak met accenten, achtergrondgeluiden en het gebruik van technisch jargon. Naast het omzetten van spraak in tekst, kan het systeem ook spraak uit elke taal naar het Engels vertalen en de verschijning van spraak in de audiostream detecteren.

De modellen zijn gevormd in twee representaties: een model voor de Engelse taal en een meertalig model, dat ook Russische, Oekraïense en Wit-Russische talen ondersteunt. Elke weergave is op zijn beurt verdeeld in 5 opties, die verschillen in grootte en aantal parameters die in het model worden behandeld. Hoe groter het formaat, hoe groter de nauwkeurigheid en kwaliteit van de herkenning, maar ook hoe hoger de vereisten voor de grootte van het GPU-videogeheugen en hoe lager de prestaties. De minimale optie omvat bijvoorbeeld 39 miljoen parameters en vereist 1 GB videogeheugen, en de maximale optie omvat 1550 miljoen parameters en vereist 10 GB videogeheugen. De minimale optie is 32 keer sneller dan de maximale optie.

De code voor het Whisper spraakherkennings- en vertaalsysteem is geopend

Het systeem maakt gebruik van de Transformer neurale netwerkarchitectuur, die een interactieve encoder en decoder omvat. De audio wordt opgesplitst in stukjes van 30 seconden, die worden omgezet in een log-mel-spectrogram en naar de encoder worden gestuurd. De output van de encoder wordt naar de decoder gestuurd, die een tekstuele representatie voorspelt, gecombineerd met speciale tokens die één gemeenschappelijk model mogelijk maken om problemen op te lossen zoals taaldetectie, rekening houden met de chronologie van de uitspraak van zinnen, transcriptie van spraak in verschillende talen en vertaling naar het Engels.

Bron: opennet.ru

Koop betrouwbare hosting voor sites met DDoS-bescherming, VPS VDS-servers 🔥 Koop betrouwbare websitehosting met DDoS-bescherming, VPS- en VDS-servers | ProHoster