La kodo por la parolrekono kaj traduksistemo Whisper estis malfermita

La projekto OpenAI, kiu disvolvas publikajn projektojn en la kampo de artefarita inteligenteco, publikigis evoluojn rilatajn al la sistemo de rekono de parolo Whisper. Oni asertas, ke por parolado en la angla la sistemo disponigas nivelojn de fidindeco kaj precizeco de aŭtomata rekono proksimaj al homa rekono. La kodo por la referenca efektivigo bazita sur la kadro PyTorch kaj aro de jam trejnitaj modeloj, pretaj por uzo, estis malfermitaj. La kodo estas malfermita sub la MIT-licenco.

Por trejni la modelon, oni uzis 680 mil horojn da paroldatenoj, kolektitaj el pluraj kolektoj kovrantaj malsamajn lingvojn kaj temojn. Ĉirkaŭ 1/3 el la paroldatenoj implikitaj en trejnado estas en aliaj lingvoj ol la angla. La proponita sistemo ĝuste pritraktas situaciojn kiel akcentan prononcon, fonan bruon kaj la uzon de teknika ĵargono. Krom transskribado de parolado en tekston, la sistemo ankaŭ povas traduki paroladon de iu ajn lingvo en la anglan kaj detekti la aspekton de parolado en la sonfluo.

La modeloj estas formitaj en du reprezentadoj: modelo por la angla lingvo kaj plurlingva modelo, kiu ankaŭ subtenas rusan, ukrainan kaj belorusan lingvojn. Siavice, ĉiu reprezento estas dividita en 5 eblojn, diferencajn laŭ grandeco kaj nombro da parametroj kovritaj en la modelo. Ju pli granda estas la grandeco, des pli grandas la precizeco kaj kvalito de rekono, sed ankaŭ des pli altaj estas la postuloj por la grandeco de la videomemoro de GPU kaj des pli malalta la rendimento. Ekzemple, la minimuma opcio inkluzivas 39 milionojn da parametroj kaj postulas 1 GB da videomemoro, kaj la maksimumo inkluzivas 1550 milionojn da parametroj kaj postulas 10 GB da videomemoro. La minimuma opcio estas 32 fojojn pli rapida ol la maksimumo.

La kodo por la parolrekono kaj traduksistemo Whisper estis malfermita

La sistemo uzas la arkitekturon de neŭrala reto de Transformer, kiu inkluzivas kodilon kaj malĉifrilon, kiuj interagas unu kun la alia. La audio estas dividita en 30-sekundajn pecojn, kiuj estas konvertitaj en log-Mel-spektrogramon kaj senditaj al la kodilo. La eligo de la kodilo estas sendita al la malĉifrilo, kiu antaŭdiras tekstan reprezenton miksitan kun specialaj ĵetonoj, kiuj permesas, en unu ĝenerala modelo, solvi problemojn kiel lingvodetekto, respondecante pri la kronologio de la prononco de frazoj, transskribo de parolado en malsamaj lingvoj, kaj traduko en la anglan.

fonto: opennet.ru

Aldoni komenton