Whisper ahotsa ezagutzeko eta itzultzeko sistemarako kodea ireki da

Adimen artifizialaren alorreko proiektu publikoak garatzen dituen OpenAI proiektuak Whisper ahotsa ezagutzeko sistemarekin lotutako garapenak argitaratu ditu. Ingelesez hitz egiteko sistemak fidagarritasun- eta zehaztasun-mailak ematen dituela esaten da gizakiaren ezagupenetik hurbil. PyTorch esparruan oinarritutako erreferentzia-inplementaziorako kodea eta dagoeneko prestatutako eredu multzo bat ireki dira, erabiltzeko prest. Kodea irekita dago MIT lizentziapean.

Eredua trebatzeko, 680 mila orduko hizketa-datuak erabili ziren, hizkuntza eta gai-arlo desberdinak biltzen dituzten hainbat bildumetatik jasotakoak. Prestakuntzan parte hartzen duten hizkeraren datuen 1/3 inguru ingelesa ez den beste hizkuntza batzuetan dago. Proposatutako sistemak behar bezala kudeatzen ditu azentudun ahoskera, hondoko zarata eta jargoi teknikoaren erabilera bezalako egoerak. Hizketa testura transkribatzeaz gain, sistemak edozein hizkuntzatako hizketa ingelesera ere itzul dezake eta audio-korrontean hizketa-itxura detektatu dezake.

Ereduak bi irudikapenetan eratzen dira: ingeles hizkuntzarako eredu bat eta eredu eleaniztun bat, errusiera, ukrainera eta bielorrusiera hizkuntzak ere onartzen dituena. Era berean, irudikapen bakoitza 5 aukeretan banatzen da, ereduan jasotako tamaina eta parametro kopurua desberdinak. Zenbat eta tamaina handiagoa izan, orduan eta zehaztasun eta aitorpenaren kalitate handiagoak izango dira, baina baita GPU bideo-memoriaren tamainaren eskakizunak eta errendimendu txikiagoak ere. Adibidez, gutxieneko aukerak 39 milioi parametro ditu eta 1 GB bideo-memoria behar ditu, eta gehienez 1550 milioi parametro eta 10 GB bideo-memoria behar ditu. Gutxieneko aukera gehienezkoa baino 32 aldiz azkarragoa da.

Whisper ahotsa ezagutzeko eta itzultzeko sistemarako kodea ireki da

Sistemak Transformer sare neuronalaren arkitektura erabiltzen du, elkarren artean elkarreragiten duten kodetzailea eta deskodetzailea barne hartzen dituena. Audioa 30 segundoko zatitan banatzen da, log-Mel espektrograma batean bihurtzen dira eta kodetzailera bidaltzen dira. Kodetzailearen irteera deskodetzailera bidaltzen da, zeinak testu-irudikapen bat aurreikusten baitu eredu orokor batean, hizkuntza detekzioa, esaldien ahoskatzearen kronologia kontuan hartuta, hizkeraren transkripzioa bezalako arazoak konpontzea ahalbidetzen duten token bereziekin nahastuta. hizkuntza desberdinak, eta ingelesera itzulpena.

Iturria: opennet.ru

Gehitu iruzkin berria