Google gefur út Lyra V2 opinn hljóðkóða

Google hefur kynnt Lyra V2 hljóðmerkjatækið, sem notar vélanámstækni til að ná hámarks raddgæðum yfir mjög hægum samskiptarásum. Nýja útgáfan býður upp á umskipti yfir í nýjan taugakerfisarkitektúr, stuðning fyrir fleiri vettvanga, aukinn bitahraðastjórnunarmöguleika, bættan árangur og meiri hljóðgæði. Tilvísunarkóðaútfærslan er skrifuð í C++ og dreift undir Apache 2.0 leyfinu.

Hvað varðar gæði sendra raddgagna á lágum hraða er Lyra verulega betri en hefðbundin merkjamál sem nota stafrænar merkjavinnsluaðferðir. Til að ná hágæða raddsendingu við aðstæður með takmarkað magn sendra upplýsinga, auk hefðbundinna aðferða við hljóðþjöppun og merkjabreytingu, notar Lyra tallíkan sem byggir á vélanámskerfi, sem gerir þér kleift að endurskapa þær upplýsingar sem vantar út frá dæmigerður taleinkenni.

Merkjamálið inniheldur kóðara og afkóðara. Reiknirit kóðarans snýst um að draga út raddgagnafæribreytur á 20 millisekúndna fresti, þjappa þeim og senda til viðtakandans yfir netkerfi með bitahraða frá 3.2 kbps til 9.2 kbps. Í móttakaraendanum notar afkóðarinn myndlíkan til að endurgera upprunalega talmerkið byggt á sendum hljóðbreytum, sem innihalda logaritmísk krítarróf sem taka tillit til orkueiginleika tals á mismunandi tíðnisviðum og eru útbúin með hliðsjón af líkönum af heyrnarskynjun manna.

Lyra V2 notar nýtt kynslóðarlíkan sem byggir á SoundStream snúningstauganeti, sem hefur lágar reiknikröfur, sem gerir rauntíma umkóðun kleift, jafnvel á kerfum sem eru lítil afl. Líkanið sem notað var til að búa til hljóðið var þjálfað með því að nota nokkur þúsund klukkustunda raddupptökur á meira en 90 tungumálum. TensorFlow Lite er notað til að keyra líkanið. Frammistaða fyrirhugaðrar útfærslu nægir fyrir talkóðun og umskráningu á snjallsímum á lægra verðbili.

Auk þess að nota annað kynslóðarlíkan er nýja útgáfan einnig áberandi fyrir að hafa tenglum við RVQ (Residual Vector Quantizer) kvantizer, sem er keyrt á hlið sendanda áður en gögn eru send, og á hlið viðtakandans, í merkjamálsarkitektúr. eftir að hafa fengið gögn. Kvantarinn breytir breytunum sem merkjamálið framleiðir í pakkasett, sem kóðar upplýsingar í tengslum við valda bitahraða. Til að veita mismunandi gæðastig eru mælitæki fyrir þrjá bitahraða (3.2 kbps, 6 kbps og 9.2 kbps), því hærra sem bitahraði er, því betri gæði, en því meiri bandbreiddarkröfur.

Google gefur út Lyra V2 opinn hljóðkóða

Nýja arkitektúrinn hefur dregið úr seinkun merkjasendinga úr 100 í 20 millisekúndur. Til samanburðar sýndi Opus merkjamálið fyrir WebRTC töf upp á 26.5 ms, 46.5 ms og 66.5 ms á prófuðu bitahraða. Afköst kóðara og afkóðara hafa einnig aukist verulega - allt að 5 sinnum hraðar miðað við fyrri útgáfu. Til dæmis, á Pixel 6 Pro snjallsímanum, kóðar og afkóðar nýja merkjamálið 20 ms sýnishorn á 0.57 ms, sem er 35 sinnum hraðar en krafist er fyrir rauntíma sendingu.

Auk frammistöðu var einnig hægt að bæta gæði hljóðendurheimtunnar - samkvæmt MUSHRA kvarðanum samsvara talgæði við bitahraða 3.2 kbps, 6 kbps og 9.2 kbps þegar Lyra V2 merkjamálið er notað samsvarandi bitahraða upp á 10 kbps, 13 kbps og 14 kbps þegar Opus merkjamálið er notað.

Heimild: opennet.ru

Kauptu áreiðanlega hýsingu fyrir síður með DDoS vernd, VPS VDS netþjónum 🔥 Kauptu áreiðanlega vefhýsingu með DDoS vörn, VPS VDS netþjónum | ProHoster