Msimbo wa utambuzi wa usemi wa Whisper na mfumo wa tafsiri umefunguliwa

Mradi wa OpenAI, ambao unakuza miradi ya umma katika uwanja wa akili bandia, umechapisha maendeleo yanayohusiana na mfumo wa utambuzi wa hotuba ya Whisper. Inadaiwa kuwa kwa hotuba kwa Kiingereza mfumo hutoa viwango vya kutegemewa na usahihi wa utambuzi wa kiotomatiki karibu na utambuzi wa binadamu. Msimbo wa utekelezaji wa marejeleo kulingana na mfumo wa PyTorch na seti ya miundo iliyo tayari kutumika imefunguliwa. Nambari hiyo imefunguliwa chini ya leseni ya MIT.

Ili kutoa mafunzo kwa mfano, masaa elfu 680 ya data ya hotuba ilitumiwa, iliyokusanywa kutoka kwa makusanyo kadhaa yanayofunika lugha tofauti na maeneo ya masomo. Takriban 1/3 ya data ya hotuba inayohusika katika mafunzo iko katika lugha zingine isipokuwa Kiingereza. Mfumo unaopendekezwa hushughulikia kwa usahihi hali kama vile matamshi ya lafudhi, kelele ya chinichini, na matumizi ya jargon ya kiufundi. Mbali na kunukuu hotuba kuwa maandishi, mfumo unaweza pia kutafsiri hotuba kutoka lugha yoyote hadi Kiingereza na kugundua mwonekano wa usemi katika mkondo wa sauti.

Mifano huundwa katika uwakilishi mbili: mfano wa lugha ya Kiingereza na mfano wa lugha nyingi, ambayo pia inasaidia lugha za Kirusi, Kiukreni na Kibelarusi. Kwa upande wake, kila uwakilishi umegawanywa katika chaguzi 5, tofauti kwa ukubwa na idadi ya vigezo vinavyofunikwa katika mfano. Ukubwa wa ukubwa, usahihi zaidi na ubora wa utambuzi, lakini pia mahitaji ya juu ya ukubwa wa kumbukumbu ya video ya GPU na utendaji wa chini. Kwa mfano, chaguo la chini ni pamoja na vigezo milioni 39 na inahitaji 1 GB ya kumbukumbu ya video, na kiwango cha juu kinajumuisha vigezo milioni 1550 na inahitaji 10 GB ya kumbukumbu ya video. Chaguo la chini ni mara 32 haraka kuliko kiwango cha juu.

Msimbo wa utambuzi wa usemi wa Whisper na mfumo wa tafsiri umefunguliwa

Mfumo hutumia usanifu wa mtandao wa neural wa Transformer, unaojumuisha encoder na decoder zinazoingiliana. Sauti imegawanywa katika vipande vya sekunde 30, ambavyo hubadilishwa kuwa spekrogramu ya log-Mel na kutumwa kwa programu ya kusimba. Toleo la programu ya kusimba hutumwa kwa avkodare, ambayo hutabiri uwakilishi wa maandishi uliochanganywa na ishara maalum ambazo huruhusu, katika muundo mmoja wa jumla, kutatua matatizo kama vile utambuzi wa lugha, uhasibu wa mpangilio wa matamshi ya vishazi, unukuzi wa hotuba katika lugha tofauti, na tafsiri kwa Kiingereza.

Chanzo: opennet.ru

Kuongeza maoni