Ang code para sa Whisper speech recognition at translation system ay binuksan

Ang proyekto ng OpenAI, na bumubuo ng mga pampublikong proyekto sa larangan ng artificial intelligence, ay naglathala ng mga pag-unlad na nauugnay sa sistema ng pagkilala sa speech ng Whisper. Ito ay inaangkin na para sa pagsasalita sa Ingles ang sistema ay nagbibigay ng mga antas ng pagiging maaasahan at katumpakan ng awtomatikong pagkilala na malapit sa pagkilala ng tao. Ang code para sa pagpapatupad ng sanggunian batay sa balangkas ng PyTorch at isang set ng mga sinanay na modelo, na handa nang gamitin, ay binuksan. Ang code ay bukas sa ilalim ng lisensya ng MIT.

Upang sanayin ang modelo, ginamit ang 680 libong oras ng data ng pagsasalita, na nakolekta mula sa ilang mga koleksyon na sumasaklaw sa iba't ibang mga wika at paksa. Humigit-kumulang 1/3 ng data ng pagsasalita na kasangkot sa pagsasanay ay nasa mga wika maliban sa Ingles. Tamang pinangangasiwaan ng iminungkahing sistema ang mga sitwasyon tulad ng impit na pagbigkas, ingay sa background, at paggamit ng teknikal na jargon. Bilang karagdagan sa pag-transcribe ng speech sa text, maaari ding isalin ng system ang speech mula sa anumang wika sa English at makita ang hitsura ng speech sa audio stream.

Ang mga modelo ay nabuo sa dalawang representasyon: isang modelo para sa wikang Ingles at isang multilingguwal na modelo, na sumusuporta din sa mga wikang Ruso, Ukrainian at Belarusian. Sa turn, ang bawat representasyon ay nahahati sa 5 mga opsyon, na nag-iiba sa laki at bilang ng mga parameter na sakop sa modelo. Kung mas malaki ang sukat, mas malaki ang katumpakan at kalidad ng pagkilala, ngunit mas mataas din ang mga kinakailangan para sa laki ng memorya ng video ng GPU at mas mababa ang pagganap. Halimbawa, ang pinakamababang opsyon ay may kasamang 39 milyong mga parameter at nangangailangan ng 1 GB ng memorya ng video, at ang maximum ay may kasamang 1550 milyong mga parameter at nangangailangan ng 10 GB ng memorya ng video. Ang pinakamababang opsyon ay 32 beses na mas mabilis kaysa sa maximum.

Ang code para sa Whisper speech recognition at translation system ay binuksan

Ginagamit ng system ang arkitektura ng Transformer neural network, na kinabibilangan ng encoder at decoder na nakikipag-ugnayan sa isa't isa. Hinahati-hati ang audio sa 30 segundong mga chunks, na kino-convert sa isang log-Mel spectrogram at ipinadala sa encoder. Ang output ng encoder ay ipinapadala sa decoder, na hinuhulaan ang isang representasyon ng teksto na may halong mga espesyal na token na nagbibigay-daan, sa isang pangkalahatang modelo, upang malutas ang mga problema tulad ng pagtuklas ng wika, pag-account para sa kronolohiya ng pagbigkas ng mga parirala, transkripsyon ng pagsasalita sa iba't ibang wika, at pagsasalin sa Ingles.

Pinagmulan: opennet.ru

Magdagdag ng komento