Kodeu pikeun sistem pangenalan ucapan sareng tarjamah Whisper parantos dibuka

Proyék OpenAI, anu ngembangkeun proyék umum dina widang intelijen buatan, parantos nyebarkeun kamajuan anu aya hubunganana sareng sistem pangenal ucapan Whisper. Diklaim yén pikeun ucapan dina basa Inggris sistem nyadiakeun tingkat reliabiliti jeung akurasi pangakuan otomatis deukeut pangakuan manusa. Kodeu pikeun palaksanaan rujukan dumasar kana kerangka PyTorch sareng sakumpulan modél anu parantos dilatih, siap dianggo, parantos dibuka. Kodeu dibuka dina lisénsi MIT.

Pikeun ngalatih modél, 680 rébu jam data ucapan anu dianggo, dikumpulkeun tina sababaraha kumpulan anu nyertakeun basa anu béda sareng daérah anu béda. Sakitar 1/3 tina data pidato anu aub dina pelatihan aya dina basa sanés ti Inggris. Sistem anu diusulkeun leres nanganan kaayaan sapertos lafal beraksen, sora latar, sareng panggunaan jargon téknis. Salian nranskripsikeun ucapan kana téks, sistem ogé tiasa narjamahkeun ucapan tina basa naon waé kana basa Inggris sareng ngadeteksi penampilan ucapan dina aliran audio.

Model kabentuk dina dua répréséntasi: modél pikeun basa Inggris sarta modél multibasa, nu ogé ngarojong basa Rusia, Ukrania jeung Belarusian. Sabalikna, unggal perwakilan dibagi kana 5 pilihan, béda dina ukuran sareng jumlah parameter anu katutupan dina modél. Nu leuwih gede ukuranana, nu gede akurasi jeung kualitas pangakuan, tapi ogé nu leuwih luhur sarat pikeun ukuran memori video GPU jeung kinerja handap. Contona, pilihan minimum ngawengku 39 juta parameter jeung merlukeun 1 GB memori video, sarta maksimum ngawengku 1550 juta parameter jeung merlukeun 10 GB memori video. Pilihan minimum nyaéta 32 kali leuwih gancang ti maksimum nu.

Kodeu pikeun sistem pangenalan ucapan sareng tarjamah Whisper parantos dibuka

Sistem ieu ngagunakeun arsitektur jaringan neural Transformer, anu kalebet enkoder sareng dekoder anu saling berinteraksi. Audio direcah jadi sakumpulan 30 detik, nu dirobah jadi log-Mel spectrogram sarta dikirim ka encoder nu. Kaluaran encoder dikirim ka decoder, anu ngaramalkeun répréséntasi téks anu dicampur sareng token khusus anu ngamungkinkeun, dina hiji modél umum, pikeun ngajawab masalah sapertos deteksi basa, ngitung kronologi ngucapkeun frasa, transkripsi ucapan dina basa béda, sarta tarjamah kana basa Inggris.

sumber: opennet.ru

Tambahkeun komentar