Google ka publikuar kodekun audio Lyra për transmetimin e të folurit në cilësi të dobët të lidhjes

Google ka prezantuar një kodek të ri audio, Lyra, i optimizuar për të arritur cilësinë maksimale të zërit edhe kur përdorni kanale komunikimi shumë të ngadalta. Kodi i zbatimit të Lyra është i shkruar në C++ dhe i hapur nën licencën Apache 2.0, por midis varësive të kërkuara për funksionim ka një bibliotekë të pronarit libsparse_inference.so me një zbatim kernel për llogaritjet matematikore. Vihet re se biblioteka e pronarit është e përkohshme - në të ardhmen Google premton të zhvillojë një zëvendësim të hapur dhe të ofrojë mbështetje për platforma të ndryshme.

Për sa i përket cilësisë së të dhënave zanore të transmetuara me shpejtësi të ulët, Lyra është dukshëm më e lartë se kodekët tradicionalë që përdorin metoda të përpunimit të sinjalit dixhital. Për të arritur transmetimin e zërit me cilësi të lartë në kushtet e një sasie të kufizuar informacioni të transmetuar, përveç metodave konvencionale të kompresimit të audios dhe konvertimit të sinjalit, Lyra përdor një model të të folurit të bazuar në një sistem mësimi makinerie, i cili ju lejon të rikrijoni informacionin që mungon bazuar në karakteristikat tipike të të folurit. Modeli i përdorur për të gjeneruar tingullin u trajnua duke përdorur disa mijëra orë regjistrime zanore në më shumë se 70 gjuhë.

Google ka publikuar kodekun audio Lyra për transmetimin e të folurit në cilësi të dobët të lidhjes

Kodeku përfshin një kodues dhe një dekoder. Algoritmi i koduesit zbret në nxjerrjen e parametrave të të dhënave zanore çdo 40 milisekonda, kompresimin e tyre dhe transmetimin e tyre te marrësi përmes rrjetit. Një kanal komunikimi me një shpejtësi prej 3 kilobit në sekondë është i mjaftueshëm për transmetimin e të dhënave. Parametrat e nxjerrë audio përfshijnë spektrograme logaritmike mel që marrin parasysh karakteristikat energjetike të të folurit në intervale të ndryshme frekuencash dhe përgatiten duke marrë parasysh modelin e perceptimit dëgjimor të njeriut.

Google ka publikuar kodekun audio Lyra për transmetimin e të folurit në cilësi të dobët të lidhjes

Dekoderi përdor një model gjenerues që, bazuar në parametrat audio të transmetuar, rikrijon sinjalin e të folurit. Për të zvogëluar kompleksitetin e llogaritjeve, u përdor një model i lehtë i bazuar në një rrjet nervor të përsëritur, i cili është një variant i modelit të sintezës së të folurit WaveRNN, i cili përdor një frekuencë më të ulët të kampionimit, por gjeneron disa sinjale paralelisht në intervale të ndryshme frekuencash. Sinjalet që rezultojnë më pas mbivendosen për të prodhuar një sinjal të vetëm dalës që korrespondon me shpejtësinë e specifikuar të kampionimit.

Udhëzimet e specializuara të procesorit të disponueshme në procesorët ARM 64-bit përdoren gjithashtu për përshpejtim. Si rezultat, pavarësisht përdorimit të mësimit të makinerive, kodiku Lyra mund të përdoret për kodimin dhe dekodimin e të folurit në kohë reale në telefonat inteligjentë të rangut të mesëm, duke demonstruar vonesë të transmetimit të sinjalit prej 90 milisekonda.

Burimi: opennet.ru

Shto një koment