Pwojè OpenAI a, ki devlope pwojè piblik nan domèn entèlijans atifisyèl, te pibliye devlopman ki gen rapò ak sistèm rekonesans lapawòl Whisper la. Yo reklame ke pou lapawòl nan lang angle sistèm nan bay nivo fyab ak presizyon nan rekonesans otomatik tou pre rekonesans imen. Kòd pou aplikasyon referans ki baze sou kad PyTorch la ak yon seri modèl deja antrene ki pare pou itilize yo te louvri. Kòd la louvri anba lisans MIT.
Pou antrene modèl la, yo te itilize 680 mil èdtan done lapawòl, yo kolekte nan plizyè koleksyon ki kouvri diferan lang ak matyè. Apeprè 1/3 nan done lapawòl ki enplike nan fòmasyon se nan lang ki pa angle. Sistèm yo pwopoze a kòrèkteman jere sitiyasyon tankou pwononsyasyon aksantye, bri background, ak itilizasyon jagon teknik. Anplis transkripsyon lapawòl nan tèks, sistèm lan ka tradui tou diskou soti nan nenpòt lang nan lang angle epi detekte aparans nan lapawòl nan kouran odyo a.
Modèl yo fòme nan de reprezantasyon: yon modèl pou lang angle a ak yon modèl ki pale plizyè lang, ki sipòte tou lang Ris, Ukrainian ak Belarisyen. Nan vire, chak reprezantasyon divize an 5 opsyon, diferan nan gwosè ak kantite paramèt ki kouvri nan modèl la. Pi gwo gwosè a, se pi gwo presizyon ak bon jan kalite rekonesans, men tou, pi wo kondisyon yo pou gwosè memwa videyo GPU a ak pi ba pèfòmans lan. Pou egzanp, opsyon minimòm nan gen ladan 39 milyon paramèt epi li mande pou 1 GB nan memwa videyo, ak maksimòm nan gen ladan 1550 milyon paramèt ak mande pou 10 GB nan memwa videyo. Opsyon minimòm lan se 32 fwa pi vit pase maksimòm la.

Sistèm nan sèvi ak achitekti Transformer rezo neral la, ki gen ladann yon ankode ak dekodeur ki kominike youn ak lòt. Se odyo a kraze an fragman 30 segonn, ki konvèti nan yon espektwogram log-Mel epi yo voye nan ankode a. Se pwodiksyon ankode a voye nan dekodeur a, ki predi yon reprezantasyon tèks melanje ak siy espesyal ki pèmèt, nan yon modèl jeneral, yo rezoud pwoblèm tankou deteksyon lang, kontablite pou kwonoloji nan pwononsyasyon fraz yo, transkripsyon lapawòl nan. diferan lang, ak tradiksyon an angle.
Sous: opennet.ru
