Google hefur gefið út Lyra hljóðmerkjamálið fyrir talflutning í lélegum tengigæðum

Google hefur kynnt nýjan hljóðmerkjalykil, Lyra, sem er fínstilltur til að ná hámarks raddgæði jafnvel þegar verið er að nota mjög hægar samskiptarásir. Lyra innleiðingarkóði er skrifaður í C++ og opinn undir Apache 2.0 leyfinu, en meðal ósjálfstæðis sem krafist er fyrir rekstur er sérbókasafn libsparse_inference.so með kjarnaútfærslu fyrir stærðfræðilega útreikninga. Það er tekið fram að sérbókasafnið er tímabundið - í framtíðinni lofar Google að þróa opið skipti og veita stuðning fyrir ýmsa vettvanga.

Hvað varðar gæði sendra raddgagna á lágum hraða er Lyra verulega betri en hefðbundin merkjamál sem nota stafrænar merkjavinnsluaðferðir. Til að ná hágæða raddsendingu við aðstæður með takmarkað magn sendra upplýsinga, auk hefðbundinna aðferða við hljóðþjöppun og merkjabreytingu, notar Lyra tallíkan sem byggir á vélanámskerfi, sem gerir þér kleift að endurskapa þær upplýsingar sem vantar út frá dæmigerður taleinkenni. Líkanið sem notað var til að búa til hljóðið var þjálfað með því að nota nokkur þúsund klukkustunda raddupptökur á meira en 70 tungumálum.

Google hefur gefið út Lyra hljóðmerkjamálið fyrir talflutning í lélegum tengigæðum

Merkjamálið inniheldur kóðara og afkóðara. Reiknirit kóðarans snýst um að draga út raddgagnafæribreytur á 40 millisekúndna fresti, þjappa þeim og senda til viðtakandans í gegnum netið. Samskiptarás með 3 kílóbita hraða á sekúndu nægir til gagnaflutnings. Dregnar hljóðfæribreytur innihalda logarithmic mel litróf sem taka tillit til orkueiginleika tals á mismunandi tíðnisviðum og eru útbúnar með hliðsjón af líkani mannlegrar heyrnarskynjunar.

Google hefur gefið út Lyra hljóðmerkjamálið fyrir talflutning í lélegum tengigæðum

Afkóðarinn notar myndlíkan sem, byggt á sendum hljóðbreytum, endurskapar talmerkið. Til að draga úr flóknum útreikningum var notað létt líkan sem byggir á endurteknu tauganeti, sem er afbrigði af WaveRNN talgervlalíkani, sem notar lægri sýnatökutíðni, en myndar nokkur merki samhliða á mismunandi tíðnisviðum. Merkin sem myndast eru síðan lögð ofan á til að framleiða eitt úttaksmerki sem samsvarar tilgreindum sýnatökuhraða.

Sérhæfðar örgjörvaleiðbeiningar sem eru fáanlegar í 64-bita ARM örgjörvum eru einnig notaðar til hröðunar. Fyrir vikið, þrátt fyrir notkun vélanáms, er hægt að nota Lyra merkjamálið fyrir rauntíma talkóðun og umskráningu á meðal-snjallsímum, sem sýnir seinkun merkjasendinga upp á 90 millisekúndur.

Heimild: opennet.ru

Bæta við athugasemd