Silero խոսքի սինթեզի համակարգի նոր թողարկում

Հասանելի է Silero Text-to-Speech նեյրոնային ցանցի խոսքի սինթեզի համակարգի նոր հրապարակային թողարկումը: Նախագիծն առաջին հերթին ուղղված է խոսքի սինթեզի ժամանակակից, բարձրորակ համակարգ ստեղծելուն, որը չի զիջում կորպորացիաների առևտրային լուծումներին և հասանելի է բոլորին առանց թանկարժեք սերվերային սարքավորումների օգտագործման:

Մոդելները տարածվում են GNU AGPL լիցենզիայի ներքո, սակայն նախագիծը մշակող ընկերությունը չի բացահայտում մոդելների վերապատրաստման մեխանիզմը։ Գործարկելու համար կարող եք օգտագործել PyTorch-ը և շրջանակները, որոնք աջակցում են ONNX ձևաչափին: Խոսքի սինթեզը Silero-ում հիմնված է խորապես փոփոխված ժամանակակից նեյրոնային ցանցի ալգորիթմների և թվային ազդանշանի մշակման մեթոդների օգտագործման վրա:

Նշվում է, որ խոսքի սինթեզի ժամանակակից նեյրոնային ցանցերի լուծումների հիմնական խնդիրն այն է, որ դրանք հաճախ հասանելի են միայն վճարովի ամպային լուծումների շրջանակներում, իսկ հանրային արտադրանքն ունեն ապարատային բարձր պահանջներ, ցածր որակի են կամ ամբողջական և պատրաստ չեն օգտագործման համար։ ապրանքներ. Օրինակ, սինթեզման նոր հանրաճանաչ ճարտարապետություններից մեկը՝ VITS-ը, սահուն գործարկելու համար (այսինքն՝ ոչ մոդելային ուսուցման համար), պահանջվում են 16 գիգաբայթից ավելի VRAM-ով վիդեո քարտեր:

Հակառակ ներկայիս տենդենցի՝ Silero լուծումները հաջողությամբ աշխատում են նույնիսկ Intel պրոցեսորի 1 x86 թելի վրա՝ AVX2 հրահանգներով: 4 պրոցեսորային թելերի վրա սինթեզը թույլ է տալիս սինթեզել վայրկյանում 30-ից 60 վայրկյան 8 կՀց սինթեզի ռեժիմում, 24 կՀց ռեժիմում՝ 15-20 վայրկյան, իսկ 48 կՀց ռեժիմում՝ մոտ 10 վայրկյան։

Silero-ի նոր թողարկման հիմնական առանձնահատկությունները.

  • Մոդելի չափը կրճատվել է 2 անգամ մինչև 50 մեգաբայթ;
  • Մոդելները գիտեն, թե ինչպես դադար տալ;
  • Առկա են 4 բարձրորակ ձայներ ռուսերենով (և անսահման թվով պատահական): Արտասանության օրինակներ;
  • Մոդելները դարձել են 10 անգամ ավելի արագ և, օրինակ, 24 կՀց ռեժիմում թույլ են տալիս 20 պրոցեսորային թելերի վրա վայրկյանում սինթեզել մինչև 4 վայրկյան ձայն;
  • Մեկ լեզվի բոլոր ձայնային տարբերակները փաթեթավորված են մեկ մոդելի մեջ.
  • Մոդելները կարող են ընդունել տեքստի ամբողջ պարբերությունները որպես մուտքագրում, SSML պիտակները ապահովված են;
  • Սինթեզն աշխատում է միանգամից երեք նմուշառման հաճախականությամբ՝ 8, 24 և 48 կիլոհերց;
  • «Երեխաների խնդիրները» լուծված են՝ անկայունություն և բացակայող բառեր.
  • Ավելացվել են դրոշներ՝ վերահսկելու շեշտադրումների ավտոմատ տեղադրումը և «е» տառի տեղադրումը:

Ներկայումս սինթեզի նորագույն տարբերակի համար հանրությանը հասանելի է 4 ձայն ռուսերենով, սակայն մոտ ապագայում կհրապարակվի հաջորդ տարբերակը՝ հետևյալ փոփոխություններով.

  • Սինթեզի արագությունը կավելանա ևս 2-4 անգամ;
  • Կթարմացվեն ԱՊՀ լեզուների սինթեզի մոդելները՝ կալմիկերեն, թաթարերեն, ուզբեկերեն և ուկրաիներեն;
  • Կավելացվեն եվրոպական լեզուների մոդելներ.
  • Կավելացվեն հնդկական լեզուների մոդելներ.
  • Անգլերենի մոդելները կավելացվեն:

Սիլերոյի սինթեզին բնորոշ համակարգի որոշ խափանումներ.

  • Ի տարբերություն ավելի ավանդական սինթեզի լուծումների, ինչպիսիք են RHVoice-ը, Silero synthesis-ը չունի SAPI ինտեգրում, հեշտ տեղադրվող հաճախորդներ կամ ինտեգրումներ Windows-ի և Android-ի համար.
  • Արագությունը, թեև աննախադեպ բարձր է նման լուծման համար, կարող է բավարար չլինել թույլ պրոցեսորների վրա բարձր որակի վրա արագ սինթեզի համար.
  • Ավտո-ակցենտ լուծումը չի մշակում հոմոգրաֆներ (բառեր, ինչպիսիք են ամրոցը և ամրոցը) և դեռ սխալներ է թույլ տալիս, բայց դա կուղղվի հետագա թողարկումներում.
  • Սինթեզի ընթացիկ տարբերակը չի աշխատում առանց AVX2 հրահանգների պրոցեսորների վրա (կամ պետք է հատուկ փոխել PyTorch-ի կարգավորումները), քանի որ մոդելի ներսում գտնվող մոդուլներից մեկը քվանտացված է.
  • Սինթեզի ներկայիս տարբերակը, ըստ էության, ունի մեկ PyTorch-ի կախվածություն, ամբողջ լցոնումը «կապված է» մոդելի և JIT փաթեթների ներսում: Մոդելների սկզբնական կոդերը հրապարակված չեն, ինչպես նաև PyTorch հաճախորդներից այլ լեզուների համար մոդելներ գործարկելու կոդը;
  • Libtorch-ը, որը հասանելի է շարժական հարթակների համար, շատ ավելի ծավալուն է, քան ONNX-ի գործարկման ժամանակը, սակայն մոդելի ONNX տարբերակը դեռ հասանելի չէ:

Source: opennet.ru

Добавить комментарий