De code voor het Whisper spraakherkennings- en vertaalsysteem is geopend

Het OpenAI-project, dat publieke projecten ontwikkelt op het gebied van kunstmatige intelligentie, heeft ontwikkelingen gepubliceerd met betrekking tot het Whisper-spraakherkenningssysteem. Er wordt beweerd dat het systeem voor spraak in het Engels niveaus van betrouwbaarheid en nauwkeurigheid van automatische herkenning biedt die dicht bij menselijke herkenning liggen. De code voor de referentie-implementatie op basis van het PyTorch-framework en een reeks reeds getrainde modellen, klaar voor gebruik, zijn geopend. De code is open onder de MIT-licentie.

Om het model te trainen werden 680 uur aan spraakgegevens gebruikt, verzameld uit verschillende collecties over verschillende talen en vakgebieden. Ongeveer 1/3 van de spraakgegevens die bij training betrokken zijn, zijn in andere talen dan Engels. Het voorgestelde systeem gaat correct om met situaties zoals uitspraak met accenten, achtergrondgeluiden en het gebruik van technisch jargon. Naast het omzetten van spraak in tekst, kan het systeem ook spraak uit elke taal naar het Engels vertalen en de verschijning van spraak in de audiostream detecteren.

De modellen zijn gevormd in twee representaties: een model voor de Engelse taal en een meertalig model, dat ook Russische, Oekraïense en Wit-Russische talen ondersteunt. Elke weergave is op zijn beurt verdeeld in 5 opties, die verschillen in grootte en aantal parameters die in het model worden behandeld. Hoe groter het formaat, hoe groter de nauwkeurigheid en kwaliteit van de herkenning, maar ook hoe hoger de vereisten voor de grootte van het GPU-videogeheugen en hoe lager de prestaties. De minimale optie omvat bijvoorbeeld 39 miljoen parameters en vereist 1 GB videogeheugen, en de maximale optie omvat 1550 miljoen parameters en vereist 10 GB videogeheugen. De minimale optie is 32 keer sneller dan de maximale optie.

De code voor het Whisper spraakherkennings- en vertaalsysteem is geopend

Het systeem maakt gebruik van de neurale netwerkarchitectuur van Transformer, die een encoder en decoder omvat die met elkaar communiceren. De audio wordt opgesplitst in brokken van 30 seconden, die worden omgezet in een log-Mel-spectrogram en naar de encoder worden gestuurd. De uitvoer van de encoder wordt naar de decoder gestuurd, die een tekstrepresentatie voorspelt gemengd met speciale tokens waarmee, in één algemeen model, problemen kunnen worden opgelost zoals taaldetectie, rekening houdend met de chronologie van de uitspraak van zinnen, transcriptie van spraak in verschillende talen en vertaling naar het Engels.

Bron: opennet.ru

Voeg een reactie