Ang Whisper Speech Recognition ug Translation System Code Gibuksan

Ang OpenAI, usa ka proyekto nga nagpalambo og mga open-source nga proyekto sa artificial intelligence, nagpatik sa ilang trabaho sa Whisper speech recognition system. Giangkon niini nga alang sa pagsulti sa Iningles, ang sistema naghatag og lebel sa kasaligan ug katukma nga hapit sa pag-ila sa tawo. Ang code alang sa reference implementation, base sa PyTorch framework, ug usa ka hugpong sa mga pre-trained nga modelo nga andam na gamiton, gipagawas na. Ang code open-sourced ubos sa MIT license.

Ang modelo gibansay gamit ang 680,000 ka oras nga datos sa pagsulti nga nakolekta gikan sa daghang mga koleksyon nga naglangkob sa lainlaing mga pinulongan ug mga hilisgutan. Gibana-bana nga usa ka ikatulo sa datos sa pagsulti nga gigamit alang sa pagbansay gikan sa mga pinulongan gawas sa Ingles. Ang gisugyot nga sistema husto nga nagdumala sa mga sitwasyon sama sa accented pronunciation, background noise, ug teknikal nga jargon. Gawas pa sa pag-transcribe sa pagsulti ngadto sa teksto, ang sistema mahimo usab nga maghubad sa pagsulti gikan sa bisan unsang pinulongan ngadto sa Ingles ug makamatikod sa presensya sa pagsulti sa usa ka audio stream.

Ang mga modelo gihimo sa duha ka representasyon: usa ka modelo sa pinulongan nga Ingles ug usa ka modelo sa daghang pinulongan, nga nagsuporta usab sa Ruso, Ukrainian, ug Belarusian. Ang matag representasyon gibahin pa sa lima ka variant, nga managlahi sa gidak-on ug gidaghanon sa mga parameter nga nasakup sa modelo. Ang mas dagkong mga modelo moresulta sa mas taas nga katukma ug kalidad sa pag-ila, apan mas taas usab nga kinahanglanon sa memorya sa GPU ug mas ubos nga performance. Pananglitan, ang minimum nga modelo naglakip sa 39 milyon nga mga parameter ug nanginahanglan og 1 GB nga memorya sa video, samtang ang maximum nga modelo naglakip sa 1550 milyon nga mga parameter ug nanginahanglan og 10 GB nga memorya sa video. Ang minimum nga modelo 32 ka pilo nga mas paspas kaysa sa maximum nga modelo.

Ang Whisper Speech Recognition ug Translation System Code Gibuksan

Ang sistema naggamit sa arkitektura sa neural network nga "Transformer", nga naglakip sa usa ka interacting encoder ug decoder. Ang audio gibahin ngadto sa 30-segundos nga mga bahin, gi-convert ngadto sa usa ka log-Mel spectrogram, ug gipakaon ngadto sa encoder. Ang output sa encoder gipadala ngadto sa decoder, nga nagtagna sa usa ka representasyon sa teksto nga gisagol sa mga espesyal nga token, nga nagtugot sa usa ka modelo sa pagtubag sa mga buluhaton sama sa pag-detect sa pinulongan, kronolohikal nga paglitok, transkripsyon sa sinultihan sa lain-laing mga pinulongan, ug paghubad ngadto sa Iningles.

Source: opennet.ru

Pagpalit kasaligan nga pag-host alang sa mga site nga adunay proteksyon sa DDoS, mga server sa VPS VDS 🔥 Pagpalit og kasaligang website hosting nga adunay proteksyon sa DDoS, VPS VDS servers | ProHoster