De Code fir de Whisper Riederkennung an Iwwersetzungssystem gouf opgemaach

Den OpenAI Projet, deen ëffentlech Projeten am Beräich vun der kënschtlecher Intelligenz entwéckelt, huet Entwécklungen am Zesummenhang mam Whisper Speech Recognition System publizéiert. Et gëtt behaapt datt fir Ried an Englesch de System Niveauen vun Zouverlässegkeet an Genauegkeet vun automatesch Unerkennung no der mënschlecher Unerkennung gëtt. De Code fir d'Referenzimplementatioun baséiert op dem PyTorch Kader an eng Rei vu scho trainéierte Modeller, prett fir ze benotzen, goufen opgemaach. De Code ass ënner der MIT Lizenz op.

Fir de Modell ze trainéieren, goufen 680 Tausend Stonne Rieddaten benotzt, gesammelt aus verschiddene Sammlungen, déi verschidde Sproochen a Fachberäicher ofdecken. Ongeféier 1/3 vun de Rieddaten, déi am Training involvéiert sinn, sinn an anere Sproochen wéi Englesch. De proposéierte System handhabt korrekt Situatiounen wéi accentéiert Aussprooch, Hannergrondgeräischer an d'Benotzung vum technesche Jargon. Zousätzlech fir d'Ried an den Text ze transkriberen, kann de System och Ried aus all Sprooch op Englesch iwwersetzen an d'Erscheinung vu Ried am Audiostream erkennen.

D'Modeller ginn an zwou Representatioune geformt: e Modell fir déi englesch Sprooch an e méisproochege Modell, deen och russesch, ukrainesch a wäissrussesch Sproochen ënnerstëtzt. Am Tour ass all Representatioun an 5 Optiounen opgedeelt, ënnerscheedend an der Gréisst an der Zuel vun de Parameteren déi am Modell bedeckt sinn. Wat d'Gréisst méi grouss ass, wat d'Genauegkeet an d'Qualitéit vun der Unerkennung méi grouss ass, awer och wat méi héich d'Ufuerderunge fir d'Gréisst vum GPU-Video-Speicher sinn an d'Leeschtung méi niddereg. Zum Beispill, enthält de Minimum Optioun 39 Millioune Parameteren a verlaangt 1 GB Video Erënnerung, an de Maximum enthält 1550 Millioune Parameteren a verlaangt 10 GB Video Erënnerung. De Minimum Optioun ass 32 Mol méi séier wéi de Maximum.

De Code fir de Whisper Riederkennung an Iwwersetzungssystem gouf opgemaach

De System benotzt d'Transformer neural Netzwierkarchitektur, déi en Encoder an Decoder enthält, déi matenee interagéieren. Den Audio gëtt an 30 Sekonnen Stécker opgedeelt, déi an e Log-Mel Spektrogramm ëmgewandelt ginn an an den Encoder geschéckt ginn. D'Ausgab vum Encoder gëtt un den Decoder geschéckt, deen eng Textrepresentatioun virausgesot, gemëscht mat speziellen Tokens, déi et erlaben, an engem allgemenge Modell, Problemer ze léisen wéi Sproocherkennung, Rechnung fir d'Chronologie vun der Aussprooch vu Sätze, Transkriptioun vu Ried an verschidde Sproochen, an Iwwersetzung op Englesch.

Source: opennet.ru

Setzt e Commentaire