Koda ji bo pergala naskirin û wergerandina axaftina Whisper hate vekirin

Projeya OpenAI, ku di warê îstîxbarata sûnî de projeyên gelemperî pêş dixe, geşedanên têkildarî pergala naskirina axaftina Whisper-ê weşand. Tê îdiakirin ku ji bo axaftina bi Îngilîzî sîstem astên pêbawerî û rastbûna naskirina otomatîkî ya nêzî nasnameya mirovî peyda dike. Koda ji bo pêkanîna referansê li ser bingeha çarçoveya PyTorch û komek modelên jixwe perwerdekirî, ji bo karanîna amade ne, hatine vekirin. Kod di bin lîsansa MITê de vekirî ye.

Ji bo perwerdekirina modelê, 680 hezar saet daneyên axaftinê hatine bikar anîn, ku ji gelek berhevokên ziman û mijarên cihêreng hatine berhev kirin. Nêzîkî 1/3 daneyên axaftinê yên ku beşdarî perwerdehiyê dibin bi zimanên din ji bilî Englishngilîzî ne. Pergala pêşniyarkirî rewşên wekî bilêvkirina binavkirî, dengê paşîn, û karanîna jargona teknîkî rast digire. Digel veguheztina axaftinê li nivîsê, pergal dikare axaftinê jî ji her zimanî wergerîne Englishngilîzî û xuyangiya axaftinê di herikîna deng de tespît bike.

Model di du nûneran de têne çêkirin: modelek ji bo zimanê Englishngilîzî û modelek pirzimanî, ku di heman demê de zimanên Rûsî, Ukraynî û Belarûsî jî piştgirî dike. Di encamê de, her nûnertî di nav 5 vebijarkan de tê dabeş kirin, ku di mezinahî û hejmara parametreyên ku di modelê de têne vegirtin cûda dibin. Mezinahî her ku mezintir be, rastbûn û kalîteya naskirinê ew qas mezintir e, lê di heman demê de hewcedariyên ji bo mezinahiya bîranîna vîdyoya GPU-yê jî bilindtir dibe û performansa kêm dibe. Mînakî, vebijarka herî kêm 39 mîlyon parametre digire û 1 GB bîranîna vîdyoyê hewce dike, û ya herî zêde 1550 mîlyon parametre digire û 10 GB bîranîna vîdyoyê hewce dike. Vebijarka herî kêm 32 carî ji ya herî zêde zûtir e.

Koda ji bo pergala naskirin û wergerandina axaftina Whisper hate vekirin

Pergal mîmariya tora neuralî ya Transformer bikar tîne, ku tê de şîfreyek û dekoderek ku bi hevûdu re têkildar in, vedihewîne. Deng li perçeyên 30 çirkeyan tê dabeş kirin, ku ew vediguherin spektrogramek log-Mel û ji şîfrekerê re têne şandin. Hilberîna şîfrekerê ji dekoderê re tê şandin, ku pêşbînî dike ku temsîla nivîsê ya bi nîşaneyên taybetî re tevlihevkirî ye, ku di yek modelek gelemperî de dihêle ku pirsgirêkên wekî tespîtkirina ziman, hesabkirina kronolojiya bilêvkirina hevokan, veguheztina axaftinê di nav de çareser bike. zimanên cuda, û wergerandina Îngilîzî.

Source: opennet.ru

Add a comment