Infetaħ il-kodiċi għas-sistema ta’ rikonoxximent u traduzzjoni tad-diskors Whisper

Il-proġett OpenAI, li jiżviluppa proġetti pubbliċi fil-qasam tal-intelliġenza artifiċjali, ippubblika żviluppi relatati mas-sistema ta’ rikonoxximent tad-diskors Whisper. Qed jingħad li għad-diskors bl-Ingliż is-sistema tipprovdi livelli ta’ affidabbiltà u preċiżjoni ta’ rikonoxximent awtomatiku qrib ir-rikonoxximent tal-bniedem. Infetħu l-kodiċi għall-implimentazzjoni ta’ referenza bbażata fuq il-qafas PyTorch u sett ta’ mudelli diġà mħarrġa, lesti għall-użu. Il-kodiċi huwa miftuħ taħt il-liċenzja MIT.

Biex jitħarreġ il-mudell, intużaw 680 elf siegħa ta 'dejta dwar id-diskors, miġbura minn diversi kollezzjonijiet li jkopru lingwi u oqsma differenti. Madwar 1/3 tad-dejta tad-diskors involuta fit-taħriġ hija f'lingwi oħra għajr l-Ingliż. Is-sistema proposta tittratta b'mod korrett sitwazzjonijiet bħal pronunzja b'aċċent, storbju fl-isfond, u l-użu ta' lingwaġġ tekniku. Minbarra li tittraskrivi d-diskors f'test, is-sistema tista 'wkoll tittraduċi diskors minn kwalunkwe lingwa għall-Ingliż u tiskopri d-dehra tad-diskors fil-fluss tal-awdjo.

Il-mudelli huma ffurmati f'żewġ rappreżentazzjonijiet: mudell għall-lingwa Ingliża u mudell multilingwi, li jappoġġja wkoll il-lingwi Russu, Ukrajn u Belarussu. Min-naħa tagħha, kull rappreżentazzjoni hija maqsuma f'għażliet 5, li jvarjaw fid-daqs u n-numru ta 'parametri koperti fil-mudell. Iktar ma jkun kbir id-daqs, iktar ikun kbir l-eżattezza u l-kwalità tar-rikonoxximent, iżda wkoll ogħla jkunu r-rekwiżiti għad-daqs tal-memorja tal-vidjo GPU u inqas tkun il-prestazzjoni. Pereżempju, l-għażla minima tinkludi 39 miljun parametru u teħtieġ 1 GB ta 'memorja tal-vidjo, u l-massimu jinkludi 1550 miljun parametru u teħtieġ 10 GB ta' memorja tal-vidjo. L-għażla minima hija 32 darba aktar mgħaġġla mill-massimu.

Infetaħ il-kodiċi għas-sistema ta’ rikonoxximent u traduzzjoni tad-diskors Whisper

Is-sistema tuża l-arkitettura tan-netwerk newrali tat-Transformer, li tinkludi encoder u decoder li jinteraġixxu ma 'xulxin. L-awdjo huwa mqassam f'biċċiet ta '30 sekonda, li huma kkonvertiti fi spettrogramma log-Mel u mibgħuta lill-encoder. L-output tal-kodifikatur jintbagħat lid-decoder, li jbassar rappreżentazzjoni tat-test imħallta ma 'tokens speċjali li jippermettu, f'mudell ġenerali wieħed, biex isolvu problemi bħall-iskoperta tal-lingwa, li jammontaw għall-kronoloġija tal-pronunzja ta' frażijiet, traskrizzjoni tad-diskors f' lingwi differenti, u traduzzjoni għall-Ingliż.

Sors: opennet.ru

Żid kumment