Google hat de Lyra audio-codec publisearre foar spraakoerdracht yn minne ferbiningskwaliteit

Google hat in nije audio-codec yntrodusearre, Lyra, optimalisearre om maksimale stimkwaliteit te berikken, sels by it brûken fan heul trage kommunikaasjekanalen. De ymplemintaasjekoade fan Lyra is skreaun yn C++ en iepen ûnder de Apache 2.0-lisinsje, mar ûnder de ôfhinklikens dy't nedich binne foar operaasje is d'r in proprietêre bibleteek libsparse_inference.so mei in kernel-ymplemintaasje foar wiskundige berekkeningen. It wurdt opmurken dat de proprietêre bibleteek tydlik is - yn 'e takomst belooft Google in iepen ferfanging te ûntwikkeljen en stipe te leverjen foar ferskate platfoarms.

Wat de kwaliteit fan oerbrochte stimgegevens op lege snelheden oanbelanget, is Lyra signifikant superieur oan tradisjonele codecs dy't metoaden foar digitale sinjaalferwurking brûke. Om spraakoerdracht fan hege kwaliteit te berikken yn betingsten fan in beheinde hoemannichte oerdroegen ynformaasje, njonken konvinsjonele metoaden fan audiokompresje en sinjaalkonverzje, brûkt Lyra in spraakmodel basearre op in masine-learsysteem, wêrtroch jo de ûntbrekkende ynformaasje opnij kinne oanmeitsje op basis fan typyske spraakeigenskippen. It model dat brûkt waard om it lûd te generearjen waard oplaat mei ferskate tûzenen oeren stimopnames yn mear dan 70 talen.

Google hat de Lyra audio-codec publisearre foar spraakoerdracht yn minne ferbiningskwaliteit

De codec befettet in encoder en in decoder. It algoritme fan de kodearder komt del op it ekstrahearjen fan stimgegevensparameters elke 40 millisekonden, komprimearje se en ferstjoeren nei de ûntfanger oer it netwurk. In kommunikaasjekanaal mei in snelheid fan 3 kilobits per sekonde is genôch foar gegevensferfier. De ekstrahearre audioparameters omfetsje logaritmyske melspektrogrammen dy't rekken hâlde mei de enerzjykarakteristiken fan spraak yn ferskate frekwinsjeberiken en wurde taret mei it rekkenjen fan it model fan minsklike auditive waarnimming.

Google hat de Lyra audio-codec publisearre foar spraakoerdracht yn minne ferbiningskwaliteit

De dekoder brûkt in generatyf model dat, basearre op de útstjoerde audioparameters, it spraaksinjaal opnij oanmakket. Om de kompleksiteit fan berekkeningen te ferminderjen, waard in lichtgewicht model basearre op in weromkommend neural netwurk brûkt, dat is in fariant fan it WaveRNN-spraaksyntezemodel, dat in legere samplingfrekwinsje brûkt, mar ferskate sinjalen parallel generearret yn ferskate frekwinsjeberik. De resultearjende sinjalen wurde dan superimponearre om in inkeld útfiersinjaal te produsearjen dat oerienkomt mei de oantsjutte samplingrate.

Spesjalisearre prosessorynstruksjes beskikber yn 64-bit ARM-prosessoren wurde ek brûkt foar fersnelling. As gefolch, nettsjinsteande it gebrûk fan masine learen, kin de Lyra codec wurde brûkt foar real-time spraakkodearring en dekodearring op mid-range smartphones, demonstrearje sinjaal oerdracht latency fan 90 millisekonden.

Boarne: opennet.ru

Add a comment