Proyek OpenAI, sing ngembangake proyek sing kasedhiya kanggo umum ing bidang intelijen buatan, wis nerbitake perkembangan sing ana gandhengane karo sistem pangenalan wicara Whisper. Diklaim manawa kanggo wicara ing basa Inggris, sistem kasebut nyedhiyakake tingkat linuwih lan akurasi pangenalan otomatis sing cedhak karo pangenalan manungsa. Kode implementasi referensi adhedhasar kerangka PyTorch lan set model sing wis dilatih sing siap digunakake mbukak. Kode kasebut mbukak miturut lisensi MIT.
Model kasebut dilatih nggunakake 680 jam data wicara sing diklumpukake saka sawetara koleksi sing nyakup macem-macem basa lan subyek. Udakara 1/3 data wicara sing digunakake ing latihan yaiku saka basa liyane saka basa Inggris. Sistem sing diusulake kanthi bener nangani kahanan kayata lafal aksen, anane gangguan latar mburi, lan panggunaan jargon teknis. Saliyane nerjemahake wicara menyang teks, sistem uga bisa nerjemahake wicara saka basa apa wae menyang Inggris lan ndeteksi kedadeyan wicara ing stream audio.
Model kasebut dibentuk ing rong perwakilan: model kanggo basa Inggris lan model multibasa sing ndhukung basa Rusia, Ukrainia, lan Belarusia. Sabanjure, saben perwakilan dipérang dadi 5 varian sing beda-beda ing ukuran lan jumlah paramèter sing dilindhungi dening model. Ukuran sing luwih gedhe, luwih akurasi lan kualitas pangenalan, nanging uga syarat sing luwih dhuwur kanggo ukuran memori video GPU lan kinerja sing luwih murah. Contone, varian minimal kalebu 39 yuta paramèter lan mbutuhake 1 GB memori video, lan maksimum kalebu 1550 yuta paramèter lan mbutuhake 10 GB memori video. Varian minimal 32 kaping luwih cepet tinimbang maksimum.

Sistem kasebut nggunakake arsitektur jaringan syaraf Transformer, sing kalebu encoder lan dekoder sing saling berinteraksi. Audio kasebut dipérang dadi potongan 30 detik, sing diowahi dadi spektrogram log-Mel lan diterusake menyang encoder. Output saka encoder dikirim menyang decoder, sing prédhiksi representasi teks sing dicampur karo token khusus sing ngidini siji model umum kanggo ngatasi masalah kayata deteksi basa, akuntansi kanggo kronologi pronunciation saka frase, transkripsi wicara ing macem-macem basa, lan terjemahan menyang Inggris.
Source: opennet.ru
