Mae Google wedi cyhoeddi codec sain Lyra ar gyfer trosglwyddo lleferydd mewn ansawdd cysylltiad gwael

Mae Google wedi cyflwyno codec sain newydd, Lyra, wedi'i optimeiddio i gyflawni'r ansawdd llais mwyaf posibl hyd yn oed wrth ddefnyddio sianeli cyfathrebu araf iawn. Mae cod gweithredu Lyra wedi'i ysgrifennu yn C++ ac yn agored o dan drwydded Apache 2.0, ond ymhlith y dibyniaethau sydd eu hangen ar gyfer gweithredu mae llyfrgell berchnogol libsparse_inference.so gyda gweithrediad cnewyllyn ar gyfer cyfrifiadau mathemategol. Nodir bod y llyfrgell berchnogol dros dro - yn y dyfodol mae Google yn addo datblygu amnewidiad agored a darparu cefnogaeth i wahanol lwyfannau.

O ran ansawdd y data llais a drosglwyddir ar gyflymder isel, mae Lyra yn sylweddol well na chodecs traddodiadol sy'n defnyddio dulliau prosesu signal digidol. Er mwyn cyflawni trosglwyddiad llais o ansawdd uchel mewn amodau o swm cyfyngedig o wybodaeth a drosglwyddir, yn ogystal Γ’ dulliau confensiynol o gywasgu sain a throsi signal, mae Lyra yn defnyddio model lleferydd yn seiliedig ar system ddysgu peiriant, sy'n eich galluogi i ail-greu'r wybodaeth goll yn seiliedig ar nodweddion lleferydd nodweddiadol. Hyfforddwyd y model a ddefnyddiwyd i gynhyrchu'r sain gan ddefnyddio miloedd o oriau o recordiadau llais mewn mwy na 70 o ieithoedd.

Mae Google wedi cyhoeddi codec sain Lyra ar gyfer trosglwyddo lleferydd mewn ansawdd cysylltiad gwael

Mae'r codec yn cynnwys amgodiwr a datgodiwr. Mae algorithm yr amgodiwr yn dibynnu ar echdynnu paramedrau data llais bob 40 milieiliad, eu cywasgu, a'u trosglwyddo i'r derbynnydd dros y rhwydwaith. Mae sianel gyfathrebu Γ’ chyflymder o 3 kilobit yr eiliad yn ddigon ar gyfer trosglwyddo data. Mae'r paramedrau sain a dynnwyd yn cynnwys sbectrogramau mel logarithmig sy'n ystyried nodweddion egni lleferydd mewn gwahanol ystodau amlder ac yn cael eu paratoi gan ystyried y model o ganfyddiad clywedol dynol.

Mae Google wedi cyhoeddi codec sain Lyra ar gyfer trosglwyddo lleferydd mewn ansawdd cysylltiad gwael

Mae'r datgodiwr yn defnyddio model cynhyrchiol sydd, yn seiliedig ar y paramedrau sain a drosglwyddir, yn ail-greu'r signal lleferydd. Er mwyn lleihau cymhlethdod cyfrifiadau, defnyddiwyd model ysgafn yn seiliedig ar rwydwaith niwral cylchol, sy'n amrywiad o fodel synthesis lleferydd WaveRNN, sy'n defnyddio amledd samplu is, ond sy'n cynhyrchu sawl signal yn gyfochrog mewn gwahanol ystodau amledd. Yna caiff y signalau canlyniadol eu harosod i gynhyrchu un signal allbwn sy'n cyfateb i'r gyfradd samplu benodedig.

Defnyddir cyfarwyddiadau prosesydd arbenigol sydd ar gael mewn proseswyr ARM 64-did hefyd ar gyfer cyflymiad. O ganlyniad, er gwaethaf y defnydd o ddysgu peiriannau, gellir defnyddio'r codec Lyra ar gyfer amgodio a dadgodio lleferydd amser real ar ffonau smart canol-ystod, gan ddangos hwyrni trosglwyddo signal o 90 milieiliad.

Ffynhonnell: opennet.ru

Ychwanegu sylw