Facebook-ը թողարկում է EnCodec աուդիո կոդեկը՝ օգտագործելով մեքենայական ուսուցում

Meta/Facebook-ը (արգելված է Ռուսաստանի Դաշնությունում) ներկայացրել է նոր աուդիո կոդեկ՝ EnCodec-ը, որն օգտագործում է մեքենայական ուսուցման մեթոդներ՝ սեղմման գործակիցը բարձրացնելու համար՝ չկորցնելով որակը։ Կոդեկը կարող է օգտագործվել ինչպես իրական ժամանակում ձայնային հոսքի, այնպես էլ ֆայլերում հետագայում պահպանելու համար կոդավորման համար: EnCodec-ի հղումների իրականացումը գրված է Python-ում՝ օգտագործելով PyTorch շրջանակը և լիցենզավորված է CC BY-NC 4.0 (Creative Commons Attribution-Ոչ առևտրային) լիցենզիայի ներքո՝ միայն ոչ առևտրային օգտագործման համար:

Ներբեռնման համար առաջարկվում է երկու պատրաստի մոդել.

  • Պատճառահետևանքային մոդել, որն օգտագործում է 24 կՀց նմուշառման արագություն, որն ապահովում է միայն մոնոֆոնիկ աուդիո և պատրաստված է տարբեր ձայնային տվյալների վրա (հարմար է խոսքի կոդավորման համար): Մոդելը կարող է օգտագործվել 1.5, 3, 6, 12 և 24 կբիթ/վրկ բիթային արագությամբ փոխանցման համար ձայնային տվյալները փաթեթավորելու համար:
  • Ոչ պատճառահետևանքային մոդել, որն օգտագործում է 48 կՀց նմուշառման արագություն, աջակցում է ստերեո ձայնին և մարզվում է միայն երաժշտության վրա: Մոդելը աջակցում է 3, 6, 12 և 24 կբիթ/վրկ բիթային արագություն:

Յուրաքանչյուր մոդելի համար պատրաստվել է լեզվի լրացուցիչ մոդել, որը թույլ է տալիս հասնել սեղմման հարաբերակցության զգալի աճի (մինչև 40%)՝ առանց որակի կորստի։ Ի տարբերություն աուդիո սեղմման համար մեքենայական ուսուցման մեթոդների օգտագործմամբ նախկինում մշակված նախագծերի, EnCodec-ը կարող է օգտագործվել ոչ միայն խոսքի փաթեթավորման, այլև երաժշտության սեղմման համար՝ 48 կՀց նմուշառման արագությամբ, որը համապատասխանում է աուդիո ձայնասկավառակների մակարդակին: Ըստ նոր կոդեկի մշակողների, MP64 ձևաչափի համեմատ 3 կբ/վ բիթ արագությամբ փոխանցելիս նրանք կարողացել են բարձրացնել ձայնի սեղմման աստիճանը մոտավորապես տասը անգամ՝ պահպանելով որակի նույն մակարդակը (օրինակ՝ օգտագործելիս MP3, 64 կբ/վ թողունակություն է պահանջվում, որով փոխանցման համար EnCodec-ում նույն որակը բավարար է 6 կբ/վրկ):

Կոդեկի ճարտարապետությունը կառուցված է «տրանսֆորմատորային» ճարտարապետությամբ նեյրոնային ցանցի վրա և հիմնված է չորս կապերի վրա՝ կոդավորիչ, քվանտիզատոր, ապակոդավորիչ և դիսկրիմինատոր: Կոդավորիչը հանում է ձայնային տվյալների պարամետրերը և փոխակերպում փաթեթավորված հոսքը ավելի ցածր կադրերի արագության: Քվանտիզատորը (RVQ, մնացորդային վեկտոր քվանտիզատոր) վերափոխում է կոդավորողի հոսքի ելքը փաթեթների փաթեթների՝ սեղմելով տեղեկատվությունը ընտրված բիթային արագության հիման վրա: Քվանտիզատորի ելքը տվյալների սեղմված ներկայացումն է, որը հարմար է ցանցի միջոցով փոխանցելու կամ սկավառակի վրա պահելու համար:

Ապակոդավորիչը վերծանում է տվյալների սեղմված ներկայացումը և վերակառուցում բնօրինակ ձայնային ալիքը: Խտրականացնողը բարելավում է ստացված նմուշների որակը՝ հաշվի առնելով մարդու լսողական ընկալման մոդելը։ Անկախ որակի և բիթերի մակարդակից, կոդավորման և վերծանման համար օգտագործվող մոդելներն առանձնանում են ռեսուրսների բավականին համեստ պահանջներով (իրական ժամանակի աշխատանքի համար անհրաժեշտ հաշվարկները կատարվում են մեկ պրոցեսորի միջուկի վրա):

Facebook-ը թողարկում է EnCodec աուդիո կոդեկը՝ օգտագործելով մեքենայական ուսուցում


Source: opennet.ru

Добавить комментарий