Fluister-spraakherkenning en vertaalstelselkode is oopgemaak

Die OpenAI-projek, wat openbare projekte op die gebied van kunsmatige intelligensie ontwikkel, het ontwikkelings gepubliseer wat verband hou met die Whisper-spraakherkenningstelsel. Daar word beweer dat die stelsel vir spraak in Engels voorsien vlakke van betroubaarheid en akkuraatheid van outomatiese herkenning naby aan menslike herkenning. Die kode vir die verwysingsimplementering gebaseer op die PyTorch-raamwerk en 'n stel reeds opgeleide modelle, gereed vir gebruik, is oopgemaak. Die kode is oop onder die MIT-lisensie.

Om die model op te lei, is 680 duisend uur se spraakdata gebruik, versamel uit verskeie versamelings wat verskillende tale en vakgebiede dek. Ongeveer 1/3 van die spraakdata wat by opleiding betrokke is, is in ander tale as Engels. Die voorgestelde stelsel hanteer situasies soos geaksenteerde uitspraak, agtergrondgeraas en die gebruik van tegniese jargon korrek. Benewens die transkripsie van spraak in teks, kan die stelsel ook spraak van enige taal in Engels vertaal en die voorkoms van spraak in die oudiostroom opspoor.

Die modelle word gevorm in twee voorstellings: 'n model vir die Engelse taal en 'n veeltalige model, wat ook Russies, OekraΓ―ens en Wit-Russies ondersteun. Op sy beurt word elke voorstelling in 5 opsies verdeel, wat verskil in grootte en aantal parameters wat in die model gedek word. Hoe groter die grootte, hoe groter is die akkuraatheid en kwaliteit van herkenning, maar ook hoe hoΓ«r die vereistes vir die grootte van die GPU-videogeheue en hoe laer die werkverrigting. Byvoorbeeld, die minimum opsie sluit 39 miljoen parameters in en vereis 1 GB videogeheue, en die maksimum sluit 1550 miljoen parameters in en vereis 10 GB videogeheue. Die minimum opsie is 32 keer vinniger as die maksimum.

Fluister-spraakherkenning en vertaalstelselkode is oopgemaak

Die stelsel gebruik die Transformer neurale netwerkargitektuur, wat 'n enkodeerder en dekodeerder insluit wat met mekaar in wisselwerking is. Die oudio word opgebreek in 30-sekonde-stukke, wat in 'n log-Mel-spektrogram omgeskakel word en na die enkodeerder gestuur word. Die uitset van die enkodeerder word na die dekodeerder gestuur, wat 'n teksvoorstelling gemeng met spesiale tekens voorspel wat dit in een algemene model moontlik maak om probleme op te los soos taalbespeuring, rekening hou met die chronologie van die uitspraak van frases, transkripsie van spraak in verskillende tale, en vertaling in Engels.

Bron: opennet.ru

Voeg 'n opmerking