Ang Whisper Speech Recognition ug Translation System Code Gibuksan

Ang proyekto sa OpenAI, nga nagpalambo sa mga proyekto sa publiko sa natad sa artificial intelligence, nagpatik sa mga kalamboan nga may kalabutan sa sistema sa pag-ila sa pagsulti sa Whisper. Giangkon nga alang sa pagsulti sa English ang sistema naghatag mga lebel sa pagkakasaligan ug katukma sa awtomatik nga pag-ila duol sa pag-ila sa tawo. Ang code alang sa pagpatuman sa pakisayran base sa PyTorch framework ug usa ka set sa nabansay na nga mga modelo, andam nang gamiton, giablihan. Ang code bukas ubos sa lisensya sa MIT.

Aron mabansay ang modelo, gigamit ang 680 ka libo nga mga oras sa datos sa pagsulti, nga nakolekta gikan sa daghang mga koleksyon nga naglangkob sa lainlaing mga sinultian ug mga hilisgutan. Mga 1/3 sa datos sa pagsulti nga nahilambigit sa pagbansay naa sa mga pinulongan gawas sa English. Ang gisugyot nga sistema husto nga nagdumala sa mga sitwasyon sama sa accented pronunciation, background noise, ug ang paggamit sa teknikal nga jargon. Dugang sa pag-transcribe sa sinultihan ngadto sa teksto, ang sistema mahimo usab nga maghubad sa sinultihan gikan sa bisan unsang pinulongan ngadto sa English ug makamatikod sa dagway sa sinultihan sa audio stream.

Ang mga modelo naporma sa duha ka representasyon: usa ka modelo alang sa Iningles nga pinulongan ug usa ka multilingguwal nga modelo, nga nagsuporta usab sa Russian, Ukrainian ug Belarusian nga mga pinulongan. Sa baylo, ang matag representasyon gibahin sa 5 nga mga kapilian, nga lahi sa gidak-on ug gidaghanon sa mga parameter nga nasakup sa modelo. Ang mas dako nga gidak-on, mas dako ang katukma ug kalidad sa pag-ila, apan mas taas usab ang mga kinahanglanon alang sa gidak-on sa GPU nga panumduman sa video ug mas ubos ang performance. Pananglitan, ang minimum nga kapilian naglakip sa 39 milyon nga mga parameter ug nanginahanglan 1 GB nga panumduman sa video, ug ang labing kadaghan naglakip sa 1550 milyon nga mga parameter ug nanginahanglan 10 GB nga panumduman sa video. Ang minimum nga kapilian mao ang 32 ka beses nga mas paspas kaysa sa maximum.

Ang Whisper Speech Recognition ug Translation System Code Gibuksan

Ang sistema naggamit sa Transformer neural network architecture, nga naglakip sa usa ka encoder ug decoder nga nakig-interact sa usag usa. Ang audio gibuak ngadto sa 30-segundos nga mga tipik, nga nakabig ngadto sa log-Mel spectrogram ug gipadala ngadto sa encoder. Ang output sa encoder gipadala ngadto sa decoder, nga nagtagna sa usa ka representasyon sa teksto nga gisagol sa espesyal nga mga token nga nagtugot, sa usa ka kinatibuk-ang modelo, sa pagsulbad sa mga problema sama sa pinulongan detection, accounting alang sa kronolohiya sa paglitok sa mga hugpong sa mga pulong, transkripsyon sa pagsulti sa lain-laing mga pinulongan, ug paghubad ngadto sa Iningles.

Source: opennet.ru

Idugang sa usa ka comment