Whisper runas atpazīšanas un tulkošanas sistēmas kods ir atvērts

OpenAI projekts, kas attīsta publiskus projektus mākslīgā intelekta jomā, publicējis ar Whisper runas atpazīšanas sistēmu saistītos izstrādnes. Tiek apgalvots, ka runai angļu valodā sistēma nodrošina automātiskās atpazīšanas uzticamības un precizitātes līmeni, kas ir tuvu cilvēka atpazīšanai. Ir atvērts atsauces ieviešanas kods, kas balstīts uz PyTorch ietvaru, un jau apmācītu modeļu komplekts, kas ir gatavs lietošanai. Kods ir atvērts saskaņā ar MIT licenci.

Modeļa apmācībai tika izmantoti 680 tūkstoši stundu runas datu, kas savākti no vairākām kolekcijām, kas aptver dažādas valodas un priekšmetu jomas. Apmēram 1/3 no apmācībā iesaistītajiem runas datiem ir citās valodās, nevis angļu valodā. Piedāvātā sistēma pareizi risina tādas situācijas kā akcentēta izruna, fona troksnis un tehniskā žargona lietošana. Papildus runas pārrakstīšanai tekstā sistēma var arī tulkot runu no jebkuras valodas angļu valodā un noteikt runas parādīšanos audio straumē.

Modeļi ir veidoti divos attēlojumos: modelis angļu valodai un daudzvalodu modelis, kas atbalsta arī krievu, ukraiņu un baltkrievu valodas. Savukārt katrs attēlojums ir sadalīts 5 variantos, kas atšķiras pēc izmēra un modelī aptverto parametru skaita. Jo lielāks izmērs, jo lielāka ir atpazīšanas precizitāte un kvalitāte, bet arī augstākas prasības attiecībā uz GPU videoatmiņas izmēru un zemāka veiktspēja. Piemēram, minimālā opcija ietver 39 miljonus parametru un prasa 1 GB video atmiņu, bet maksimālā ietver 1550 miljonus parametru un prasa 10 GB video atmiņu. Minimālā opcija ir 32 reizes ātrāka par maksimālo.

Whisper runas atpazīšanas un tulkošanas sistēmas kods ir atvērts

Sistēma izmanto transformatora neironu tīkla arhitektūru, kas ietver kodētāju un dekodētāju, kas mijiedarbojas viens ar otru. Audio tiek sadalīts 30 sekunžu gabalos, kas tiek pārveidoti log-Mel spektrogrammā un nosūtīti uz kodētāju. Kodētāja izvade tiek nosūtīta uz dekodētāju, kas paredz teksta attēlojumu, kas sajaukts ar īpašiem marķieriem, kas vienā vispārīgā modelī ļauj atrisināt tādas problēmas kā valodas noteikšana, frāžu izrunas hronoloģijas uzskaite, runas transkripcija dažādās valodās un tulkojumu angļu valodā.

Avots: opennet.ru

Pievieno komentāru