Kóðinn fyrir Whisper talgreiningar- og þýðingarkerfið hefur verið opnaður

OpenAI verkefnið, sem þróar opinber verkefni á sviði gervigreindar, hefur birt þróun sem tengist Whisper talgreiningarkerfinu. Því er haldið fram að fyrir tal á ensku veiti kerfið áreiðanleika og nákvæmni sjálfvirkrar greiningar nálægt mannlegri viðurkenningu. Kóðinn fyrir tilvísunarútfærsluna sem byggir á PyTorch ramma og setti af þegar þjálfuðum gerðum, tilbúnum til notkunar, hefur verið opnaður. Kóðinn er opinn undir MIT leyfinu.

Til að þjálfa líkanið voru notaðar 680 þúsund klukkustundir af talgögnum, safnað úr nokkrum söfnum sem ná yfir mismunandi tungumál og efnissvið. Um 1/3 talgagna sem taka þátt í þjálfun er á öðrum tungumálum en ensku. Fyrirhugað kerfi meðhöndlar aðstæður eins og framburð með áherslu, bakgrunnshávaða og notkun tæknilegra orða. Auk þess að umrita tal í texta getur kerfið einnig þýtt tal frá hvaða tungumáli sem er yfir á ensku og greint útlit tals í hljóðstraumnum.

Líkönin eru mynduð í tveimur framsetningum: fyrirmynd að ensku og fjöltyngdu líkani, sem styður einnig rússnesku, úkraínsku og hvítrússnesku. Aftur á móti er hverri framsetningu skipt í 5 valkosti, mismunandi að stærð og fjölda breytu sem falla undir í líkaninu. Því stærri sem stærðin er, því meiri nákvæmni og gæði auðkenningarinnar, en einnig því meiri kröfur eru gerðar um stærð GPU myndminnis og því minni afköst. Til dæmis inniheldur lágmarksvalkosturinn 39 milljón færibreytur og krefst 1 GB af myndminni og hámarkið inniheldur 1550 milljónir breytur og krefst 10 GB af myndminni. Lágmarksvalkosturinn er 32 sinnum hraðari en hámarkið.

Kóðinn fyrir Whisper talgreiningar- og þýðingarkerfið hefur verið opnaður

Kerfið notar Transformer taugakerfisarkitektúr, sem inniheldur umrita og afkóðara sem hafa samskipti sín á milli. Hljóðið er sundurliðað í 30 sekúndna klumpa, sem er breytt í log-Mel litróf og sent í kóðarann. Úttak kóðarans er sent til afkóðarans, sem spáir fyrir um textaframsetningu í bland við sérstök tákn sem gera, í einu almennu líkani, kleift að leysa vandamál eins og tungumálagreiningu, gera grein fyrir tímaröð framburðar orðasambanda, umritun á tal í mismunandi tungumál og þýðing á ensku.

Heimild: opennet.ru

Bæta við athugasemd