Google-ը թողարկում է Lyra V2 բաց կոդով աուդիո կոդեկ

Google-ը ներկայացրել է Lyra V2 աուդիո կոդեկը, որն օգտագործում է մեքենայական ուսուցման տեխնիկա՝ շատ դանդաղ հաղորդակցման ուղիներով ձայնի առավելագույն որակի հասնելու համար: Նոր տարբերակը ներառում է անցում դեպի նոր նեյրոնային ցանցի ճարտարապետություն, աջակցություն լրացուցիչ հարթակներում, ուժեղացված բիթային արագության վերահսկում, կատարողականի բարելավում և ձայնի բարձր որակ: Հղման կոդի ներդրումը գրված է C++-ով և տարածվում է Apache 2.0 լիցենզիայի ներքո:

Ցածր արագությամբ փոխանցվող ձայնային տվյալների որակի առումով Lyra-ն զգալիորեն գերազանցում է ավանդական կոդեկներին, որոնք օգտագործում են թվային ազդանշանի մշակման մեթոդներ: Հաղորդված տեղեկատվության սահմանափակ քանակի պայմաններում ձայնի բարձր որակի փոխանցման հասնելու համար, բացի աուդիո սեղմման և ազդանշանի փոխակերպման սովորական մեթոդներից, Lyra-ն օգտագործում է խոսքի մոդել, որը հիմնված է մեքենայական ուսուցման համակարգի վրա, որը թույլ է տալիս վերստեղծել բաց թողնված տեղեկատվությունը: հիմնված խոսքի բնորոշ բնութագրերի վրա:

Կոդեկը ներառում է կոդավորիչ և ապակոդավորիչ: Կոդավորողի ալգորիթմն է յուրաքանչյուր 20 միլիվայրկյան մեկ ձայնային տվյալների պարամետրերը հանել, սեղմել և ցանցի միջոցով փոխանցել ստացողին 3.2 կբ/վ-ից մինչև 9.2 կբ/վ բիթ արագությամբ: Ստացողի կողմից ապակոդավորիչը օգտագործում է գեներատիվ մոդել՝ վերստեղծելու սկզբնական խոսքի ազդանշանը՝ հիմնված փոխանցված աուդիո պարամետրերի վրա, որոնք ներառում են լոգարիթմական կավիճ սպեկտրոգրամներ, որոնք հաշվի են առնում խոսքի էներգիայի բնութագրերը տարբեր հաճախականությունների միջակայքում և պատրաստվում են՝ հաշվի առնելով մարդու լսողական ընկալումը։ մոդել.

Lyra V2-ն օգտագործում է նոր գեներատիվ մոդել, որը հիմնված է SoundStream կոնվոլյուցիոն նեյրոնային ցանցի վրա, որը բնութագրվում է հաշվողական ռեսուրսների ցածր պահանջներով, ինչը թույլ է տալիս իրական ժամանակում վերծանել նույնիսկ ցածր էներգիայի համակարգերում: Ձայնի ստեղծման համար օգտագործվող մոդելը վերապատրաստվել է՝ օգտագործելով մի քանի հազար ժամ ձայնագրություններ ավելի քան 90 լեզուներով: TensorFlow Lite-ն օգտագործվում է մոդելը գործարկելու համար: Առաջարկվող իրագործման կատարումը բավարար է ավելի ցածր գնային միջակայքի սմարթֆոնների վրա խոսքի կոդավորման և վերծանման համար:

Ի հավելումն այլ գեներատիվ մոդելի օգտագործման, նոր տարբերակը նաև աչքի է ընկնում RVQ (Residual Vector Quantizer) քվանտիզատորով հղումների ընդգրկմամբ կոդեկի ճարտարապետության մեջ, որն իրականացվում է ուղարկողի կողմից՝ նախքան տվյալների փոխանցումը, և ստացողի կողմից: տվյալների ընդունումից հետո: Քվանտիզատորը փոխակերպում է կոդեկի կողմից տրված պարամետրերը փաթեթների փաթեթների՝ կոդավորելով տեղեկատվությունը ընտրված բիթերի հետ կապված: Որակի տարբեր մակարդակներ ապահովելու համար քվանտիզատորները տրամադրվում են երեք բիթ արագության համար (3.2 կբ/վ, 6 կբ/վ և 9.2 կբ/վ), որքան բարձր է բիթային արագությունը, այնքան լավ է որակը, բայց որքան բարձր են թողունակության պահանջները:

Google-ը թողարկում է Lyra V2 բաց կոդով աուդիո կոդեկ

Նոր ճարտարապետությունը նվազեցրել է ազդանշանի փոխանցման ուշացումները 100-ից մինչև 20 միլիվայրկյան: Համեմատության համար նշենք, որ WebRTC-ի Opus կոդեկը փորձարկված բիթային արագությամբ ցույց է տվել 26.5ms, 46.5ms և 66.5ms ուշացումներ: Զգալիորեն բարձրացել է նաև կոդավորողի և ապակոդավորողի աշխատանքը՝ նախորդ տարբերակի համեմատ առկա է մինչև 5 անգամ արագացում։ Օրինակ, Pixel 6 Pro սմարթֆոնի վրա նոր կոդեկը կոդավորում և վերծանում է 20 մվ նմուշը 0.57 մվ արագությամբ, ինչը 35 անգամ ավելի արագ է, քան անհրաժեշտ է իրական ժամանակում փոխանցման համար:

Բացի կատարումից, մեզ հաջողվեց նաև բարելավել ձայնի վերականգնման որակը. ըստ MUSHRA սանդղակի, խոսքի որակը 3.2 կբիթ/վրկ, 6 կբիթ/վ և 9.2 կբ/վ արագությամբ Lyra V2 կոդեկ օգտագործելիս համապատասխանում է 10 բիթ արագությանը: kbps, 13 kbps և 14 kbps Opus կոդեկ օգտագործելիս:

Source: opennet.ru

Добавить комментарий