Google-ը հրապարակել է Lyra աուդիո կոդեկը խոսքի փոխանցման վատ որակով

Google-ը ներկայացրել է նոր աուդիո կոդեկ՝ Lyra-ն, որն օպտիմիզացված է ձայնի առավելագույն որակի հասնելու համար նույնիսկ շատ դանդաղ հաղորդակցման ուղիների օգտագործման դեպքում: Lyra-ի իրականացման կոդը գրված է C++-ով և բացվում է Apache 2.0 լիցենզիայի ներքո, սակայն շահագործման համար պահանջվող կախվածությունների շարքում կա libsparse_inference.so սեփական գրադարան՝ միջուկի ներդրմամբ մաթեմատիկական հաշվարկների համար: Նշվում է, որ սեփական գրադարանը ժամանակավոր է. ապագայում Google-ը խոստանում է բաց փոխարինող մշակել և աջակցություն տրամադրել տարբեր հարթակների համար։

Ցածր արագությամբ փոխանցվող ձայնային տվյալների որակի առումով Lyra-ն զգալիորեն գերազանցում է ավանդական կոդեկներին, որոնք օգտագործում են թվային ազդանշանի մշակման մեթոդներ: Հաղորդվող տեղեկատվության սահմանափակ քանակի պայմաններում ձայնի բարձր որակի փոխանցման հասնելու համար, բացի աուդիո սեղմման և ազդանշանի փոխակերպման սովորական մեթոդներից, Lyra-ն օգտագործում է խոսքի մոդել, որը հիմնված է մեքենայական ուսուցման համակարգի վրա, որը թույլ է տալիս վերստեղծել բաց թողնված տեղեկատվությունը. բնորոշ խոսքի բնութագրերը. Ձայնի գեներացման համար օգտագործված մոդելը վերապատրաստվել է՝ օգտագործելով մի քանի հազար ժամ ձայնագրություններ ավելի քան 70 լեզուներով:

Google-ը հրապարակել է Lyra աուդիո կոդեկը խոսքի փոխանցման վատ որակով

Կոդեկը ներառում է կոդավորիչ և ապակոդավորիչ: Կոդավորողի ալգորիթմը հանգում է նրան, որ ձայնային տվյալների պարամետրերը հանվում են յուրաքանչյուր 40 միլիվայրկյանում, սեղմում դրանք և ցանցի միջոցով փոխանցում ստացողին: Տվյալների փոխանցման համար բավարար է 3 կիլոբիթ/վրկ արագությամբ կապի ալիքը։ Արդյունահանված աուդիո պարամետրերը ներառում են լոգարիթմական մել սպեկտրոգրամներ, որոնք հաշվի են առնում խոսքի էներգիայի բնութագրերը տարբեր հաճախականությունների միջակայքում և պատրաստվում են հաշվի առնելով մարդու լսողական ընկալման մոդելը:

Google-ը հրապարակել է Lyra աուդիո կոդեկը խոսքի փոխանցման վատ որակով

Ապակոդավորիչը օգտագործում է գեներատիվ մոդել, որը, հիմնվելով փոխանցված աուդիո պարամետրերի վրա, վերստեղծում է խոսքի ազդանշանը: Հաշվարկների բարդությունը նվազեցնելու համար օգտագործվել է կրկնվող նեյրոնային ցանցի վրա հիմնված թեթև մոդել, որը WaveRNN խոսքի սինթեզի մոդելի տարբերակն է, որն օգտագործում է նմուշառման ավելի ցածր հաճախականություն, բայց մի քանի ազդանշաններ է առաջացնում զուգահեռ հաճախականությունների տարբեր տիրույթներում: Ստացված ազդանշաններն այնուհետև վերադրվում են՝ արտադրելու մեկ ելքային ազդանշան, որը համապատասխանում է նշված նմուշառման արագությանը:

64-բիթանոց ARM պրոցեսորներում առկա մասնագիտացված պրոցեսորի հրահանգները նույնպես օգտագործվում են արագացման համար: Արդյունքում, չնայած մեքենայական ուսուցման օգտագործմանը, Lyra կոդեկը կարող է օգտագործվել իրական ժամանակում խոսքի կոդավորման և վերծանման համար միջին դասի սմարթֆոնների վրա՝ ցույց տալով ազդանշանի փոխանցման 90 միլիվայրկյան ուշացում:

Source: opennet.ru

Добавить комментарий