Mae Google wedi cyflwyno codec sain newydd, Lyra, wedi'i optimeiddio i gyflawni'r ansawdd lleferydd mwyaf hyd yn oed dros gysylltiadau rhwydwaith araf iawn. Mae gweithrediad Lyra wedi'i ysgrifennu yn C++ ac wedi'i ffynhonnell agored o dan drwydded Apache 2.0, ond mae angen llyfrgell berchnogol, libsparse_inference.so, sy'n gweithredu peiriant cyfrifo mathemategol craidd. Nodir bod y llyfrgell berchnogol hon yn un dros dro; mae Google yn addo datblygu un yn ei le o ffynhonnell agored a darparu cefnogaeth ar gyfer sawl platfform yn y dyfodol.
O ran ansawdd data llais ar gyfraddau didau isel, mae Lyra yn perfformio'n llawer gwell na chodecs traddodiadol sy'n defnyddio prosesu signal digidol. Er mwyn cyflawni trosglwyddiad llais o ansawdd uchel gyda lled band cyfyngedig, yn ogystal â dulliau cywasgu sain a throsi signal confensiynol, mae Lyra yn defnyddio model lleferydd sy'n seiliedig ar ddysgu peirianyddol sy'n ail-greu gwybodaeth goll yn seiliedig ar nodweddion lleferydd nodweddiadol. Hyfforddwyd y model a ddefnyddiwyd ar gyfer cynhyrchu sain gan ddefnyddio miloedd o oriau o recordiadau llais mewn dros 70 o ieithoedd.

Mae'r codec yn cynnwys amgodiwr a dadgodiwr. Mae algorithm yr amgodiwr yn echdynnu paramedrau data llais bob 40 milieiliad, yn eu cywasgu, ac yn eu trosglwyddo i'r derbynnydd dros y rhwydwaith. Mae sianel gyfathrebu gyda chyflymder o 3 cilobit yr eiliad yn ddigonol ar gyfer trosglwyddo data. Mae'r paramedrau sain a echdynnwyd yn cynnwys mel-sbectogramau logarithmig, sy'n ystyried nodweddion egni lleferydd mewn amrywiol ystodau amledd ac yn cael eu paratoi gan ddefnyddio model o ganfyddiad clywedol dynol.

Mae'r dadgodiwr yn defnyddio model cynhyrchiol sy'n ail-greu'r signal lleferydd yn seiliedig ar y paramedrau sain a drosglwyddir. Er mwyn lleihau cymhlethdod cyfrifiadurol, defnyddir model ysgafn yn seiliedig ar rwydwaith niwral cylchol. Mae'r model hwn yn amrywiad o'r model synthesis lleferydd WaveRNN sy'n defnyddio cyfradd samplu is ond sy'n cynhyrchu signalau lluosog mewn gwahanol ystodau amledd ar yr un pryd. Yna caiff y signalau sy'n deillio o hyn eu gosod ar ben ei gilydd i gynhyrchu un signal allbwn sy'n cyfateb i'r gyfradd samplu benodedig.
Defnyddir cyfarwyddiadau prosesydd arbenigol sydd ar gael mewn proseswyr ARM 64-bit hefyd ar gyfer cyflymiad. O ganlyniad, er gwaethaf y defnydd o ddysgu peirianyddol, gellir defnyddio'r codec Lyra ar gyfer amgodio a datgodio lleferydd amser real ar ffonau clyfar canolig eu maint, gan ddangos oedi trosglwyddo signal o 90 milieiliad.
Ffynhonnell: opennet.ru
