Odprta je koda za sistem za prepoznavanje in prevajanje govora Whisper

Projekt OpenAI, ki razvija javne projekte na področju umetne inteligence, je objavil razvoj v zvezi s sistemom za prepoznavanje govora Whisper. Trdi se, da za govor v angleščini sistem zagotavlja stopnje zanesljivosti in natančnosti samodejnega prepoznavanja, ki so blizu človeškemu prepoznavanju. Odprta je koda za referenčno implementacijo na osnovi ogrodja PyTorch in nabor že usposobljenih modelov, pripravljenih za uporabo. Koda je odprta pod licenco MIT.

Za usposabljanje modela je bilo uporabljenih 680 tisoč ur govornih podatkov, zbranih iz več zbirk, ki pokrivajo različne jezike in tematska področja. Približno 1/3 govornih podatkov, vključenih v usposabljanje, je v jezikih, ki niso angleščina. Predlagani sistem pravilno obravnava situacije, kot so naglašena izgovorjava, hrup v ozadju in uporaba tehničnega žargona. Poleg prepisovanja govora v besedilo lahko sistem tudi prevede govor iz katerega koli jezika v angleščino in zazna videz govora v zvočnem toku.

Modeli so oblikovani v dveh predstavitvah: model za angleški jezik in večjezični model, ki podpira tudi ruski, ukrajinski in beloruski jezik. Vsaka predstavitev je razdeljena na 5 možnosti, ki se razlikujejo po velikosti in številu parametrov, zajetih v modelu. Večja kot je velikost, večja je natančnost in kakovost prepoznave, višje pa so tudi zahteve glede velikosti video pomnilnika GPU in nižja je zmogljivost. Najmanjša možnost na primer vključuje 39 milijonov parametrov in zahteva 1 GB video pomnilnika, največja pa 1550 milijonov parametrov in zahteva 10 GB video pomnilnika. Najmanjša možnost je 32-krat hitrejša od največje.

Odprta je koda za sistem za prepoznavanje in prevajanje govora Whisper

Sistem uporablja arhitekturo nevronske mreže Transformer, ki vključuje kodirnik in dekoder, ki delujeta drug z drugim. Zvok je razdeljen na 30-sekundne dele, ki se pretvorijo v log-Melov spektrogram in pošljejo kodirniku. Izhod kodirnika se pošlje dekoderju, ki napove predstavitev besedila, pomešano s posebnimi žetoni, ki v enem splošnem modelu omogočajo reševanje težav, kot so zaznavanje jezika, upoštevanje kronologije izgovorjave fraz, prepis govora v različne jezike in prevod v angleščino.

Vir: opennet.ru

Dodaj komentar