Mae Google yn rhyddhau codec sain ffynhonnell agored Lyra V2

Mae Google wedi cyflwyno codec sain Lyra V2, sy'n defnyddio technegau dysgu peiriant i gyflawni'r ansawdd llais mwyaf posibl dros sianeli cyfathrebu araf iawn. Mae'r fersiwn newydd yn cynnwys trawsnewidiad i bensaernïaeth rhwydwaith niwral newydd, cefnogaeth i lwyfannau ychwanegol, galluoedd rheoli didau estynedig, gwell perfformiad ac ansawdd sain uwch. Mae gweithrediad y cod cyfeirio wedi'i ysgrifennu yn C ++ a'i ddosbarthu o dan drwydded Apache 2.0.

O ran ansawdd y data llais a drosglwyddir ar gyflymder isel, mae Lyra yn sylweddol well na chodecs traddodiadol sy'n defnyddio dulliau prosesu signal digidol. Er mwyn cyflawni trosglwyddiad llais o ansawdd uchel mewn amodau o swm cyfyngedig o wybodaeth a drosglwyddir, yn ogystal â dulliau confensiynol o gywasgu sain a throsi signal, mae Lyra yn defnyddio model lleferydd yn seiliedig ar system ddysgu peiriant, sy'n eich galluogi i ail-greu'r wybodaeth goll yn seiliedig ar nodweddion lleferydd nodweddiadol.

Mae'r codec yn cynnwys amgodiwr a datgodiwr. Mae algorithm yr amgodiwr yn dibynnu ar echdynnu paramedrau data llais bob 20 milieiliad, eu cywasgu a'u trosglwyddo i'r derbynnydd dros rwydwaith gyda chyfradd didau o 3.2kbps i 9.2kbps. Ar ddiwedd y derbynnydd, mae'r datgodiwr yn defnyddio model cynhyrchiol i ail-greu'r signal lleferydd gwreiddiol yn seiliedig ar y paramedrau sain a drosglwyddir, sy'n cynnwys sbectrogramau sialc logarithmig sy'n ystyried nodweddion egni lleferydd mewn gwahanol ystodau amledd ac yn cael eu paratoi gan ystyried modelau o canfyddiad clywedol dynol.

Mae Lyra V2 yn defnyddio model cynhyrchiol newydd yn seiliedig ar rwydwaith niwral convolutional SoundStream, sydd â gofynion cyfrifiannol isel, sy'n caniatáu datgodio amser real hyd yn oed ar systemau pŵer isel. Hyfforddwyd y model a ddefnyddiwyd i gynhyrchu'r sain gan ddefnyddio miloedd o oriau o recordiadau llais mewn mwy na 90 o ieithoedd. Defnyddir TensorFlow Lite i weithredu'r model. Mae perfformiad y gweithrediad arfaethedig yn ddigonol ar gyfer amgodio lleferydd a datgodio ar ffonau smart yn yr ystod prisiau is.

Yn ogystal â defnyddio model cynhyrchiol gwahanol, mae'r fersiwn newydd hefyd yn nodedig am gynnwys cysylltiadau â'r mesurwr RVQ (Mantizer Vector Residual) ym mhensaernïaeth codec, a weithredir ar ochr yr anfonwr cyn trosglwyddo data, ac ar ochr y derbynnydd. ar ôl derbyn data. Mae'r meintydd yn trosi'r paramedrau a gynhyrchir gan y codec yn setiau o becynnau, gan amgodio gwybodaeth mewn perthynas â'r gyfradd did a ddewiswyd. Er mwyn darparu gwahanol lefelau o ansawdd, darperir meintyddion ar gyfer tri bitrates (3.2 kps, 6 kbps a 9.2 kbps), po uchaf yw'r bitrate, y gorau yw'r ansawdd, ond po uchaf yw'r gofynion lled band.

Mae Google yn rhyddhau codec sain ffynhonnell agored Lyra V2

Mae'r bensaernïaeth newydd wedi lleihau oedi wrth drosglwyddo signal o 100 i 20 milieiliad. Er mwyn cymharu, dangosodd y codec Opus ar gyfer WebRTC hwyrni o 26.5ms, 46.5ms a 66.5ms ar y cyfraddau didau a brofwyd. Mae perfformiad yr amgodiwr a'r datgodiwr hefyd wedi cynyddu'n sylweddol - hyd at 5 gwaith yn gyflymach o'i gymharu â'r fersiwn flaenorol. Er enghraifft, ar y ffôn clyfar Pixel 6 Pro, mae'r codec newydd yn amgodio ac yn dadgodio sampl 20-ms mewn 0.57 ms, sydd 35 gwaith yn gyflymach na'r hyn sy'n ofynnol ar gyfer trosglwyddo amser real.

Yn ogystal â pherfformiad, roedd hefyd yn bosibl gwella ansawdd adfer sain - yn ôl y raddfa MUSHRA, mae ansawdd lleferydd ar bitrates o 3.2 kbps, 6 kbps a 9.2 kbps wrth ddefnyddio codec Lyra V2 yn cyfateb i bitrates o 10 kbps, 13 kbps a 14 kbps wrth ddefnyddio'r codec Opus.

Ffynhonnell: opennet.ru

Ychwanegu sylw