Sgaoileadh ùr de shiostam synthesis cainnt Silero

Tha foillseachadh poblach ùr de shiostam synthesis cainnt lìonra neural Silero Text-to-Speech ri fhaighinn. Tha am pròiseact ag amas gu sònraichte air siostam synthesis cainnt ùr-nodha àrd-inbhe a chruthachadh nach eil nas ìsle na fuasglaidhean malairteach bho chorporra agus a tha ruigsinneach don h-uile duine gun a bhith a’ cleachdadh uidheamachd frithealaiche daor.

Tha na modailean air an sgaoileadh fo chead GNU AGPL, ach chan eil a’ chompanaidh a tha a’ leasachadh a’ phròiseict a’ foillseachadh an uidheamachd airson na modailean a thrèanadh. Gus ruith, faodaidh tu PyTorch agus frèaman a chleachdadh a bheir taic do chruth ONNX. Tha synthesis cainnt ann an Silero stèidhichte air cleachdadh algoirmean lìonra neural ùr-nodha a tha air an atharrachadh gu domhainn agus dòighean giullachd chomharran didseatach.

Thathas a’ toirt fa-near gur e prìomh dhuilgheadas fuasglaidhean lìonra neural an latha an-diugh airson synthesis cainnt gu bheil iad gu tric rim faighinn dìreach taobh a-staigh fuasglaidhean sgòthan pàighte, agus gu bheil feumalachdan bathar-cruaidh àrd aig toraidhean poblach, gu bheil iad de chàileachd nas ìsle, no nach eil iad coileanta agus deiseil airson an cleachdadh. bathar. Mar eisimpleir, gus aon de na h-ailtirean synthesis deireadh-gu-deireadh ùr mòr-chòrdte a ruith, VITS, gu rèidh ann am modh synthesis (is e sin, chan ann airson trèanadh modail), tha feum air cairtean bhidio le barrachd air 16 gigabytes de VRAM.

A dh ’aindeoin a’ ghluasad a th ’ann an-dràsta, bidh fuasglaidhean Silero a’ ruith gu soirbheachail eadhon air snàithlean 1 x86 de phròiseasar Intel le stiùireadh AVX2. Air 4 snàithlean pròiseasar, leigidh synthesis leat co-chur bho 30 gu 60 diogan gach diog anns a ’mhodh synthesis 8 kHz, ann am modh 24 kHz - 15-20 diogan, agus anns a’ mhodh 48 kHz - timcheall air 10 diogan.

Prìomh fheartan an naidheachd Silero ùr:

  • Tha meud a 'mhodail air a lùghdachadh 2 uair gu 50 megabytes;
  • Tha fios aig modailean mar a stadas iad;
  • Tha 4 guthan àrd-inbhe rim faighinn ann an Ruisis (agus àireamh gun chrìoch de fheadhainn air thuaiream). Eisimpleirean fuaimneachaidh;
  • Tha na modailean air fàs 10 tursan nas luaithe agus, mar eisimpleir, ann am modh 24 kHz leigidh iad leat suas ri 20 diog de chlaistinn gach diog a cho-chur air 4 snàithlean pròiseasar;
  • Tha a h-uile roghainn guth airson aon chànan air a phacaigeadh ann an aon mhodail;
  • Gabhaidh modalan ri paragrafan teacsa slàn mar chur-a-steach, tha tagaichean SSML a’ faighinn taic;
  • Bidh an synthesis ag obair aig an aon àm ann an trì triceadan samplachaidh airson taghadh - 8, 24 agus 48 kilohertz;
  • Chaidh “duilgheadasan chloinne” fhuasgladh: neo-sheasmhachd agus faclan a tha a dhìth;
  • Chaidh brataichean a chuir ris gus smachd a chumail air suidheachadh fèin-ghluasadach sràcan agus suidheachadh na litreach “е”.

An-dràsta, airson an dreach as ùire den synthesis, tha 4 guthan ann an Ruisis rim faighinn gu poblach, ach a dh’ aithghearr thèid an ath dhreach fhoillseachadh leis na h-atharrachaidhean a leanas:

  • Àrdaichidh an ìre synthesis 2-4 tursan eile;
  • Thèid modalan synthesis airson cànanan CIS ùrachadh: Kalmyk, Tatar, Uzbek agus Ucràinis;
  • Thèid modalan airson cànanan Eòrpach a chur ris;
  • Thèid modalan airson cànanan Innseanach a chur ris;
  • Thèid modalan airson Beurla a chur ris.

Cuid de na briseadh sìos siostam a tha dualach do synthesis Silero:

  • Eu-coltach ri fuasglaidhean synthesis nas traidiseanta leithid RHVoice, chan eil amalachadh SAPI, teachdaichean a tha furasta an stàladh, no amalachadh airson Windows agus Android aig Silero synthesis;
  • Is dòcha nach bi an astar, ged nach fhacas a-riamh àrd airson a leithid de fhuasgladh, gu leòr airson synthesis air-the-fly air pròiseasairean lag aig ìre àrd;
  • Chan eil am fuasgladh fèin-stràc a 'làimhseachadh homographs (faclan mar caisteal is caisteal) agus tha e fhathast a' dèanamh mhearachdan, ach thèid seo a cheartachadh ann am fiosan san àm ri teachd;
  • Chan eil an dreach gnàthach de synthesis ag obair air pròiseasairean gun stiùireadh AVX2 (no feumaidh tu roghainnean PyTorch atharrachadh gu sònraichte) oir tha aon de na modalan taobh a-staigh a ’mhodail air a thomhas;
  • Gu bunaiteach tha aon eisimeileachd PyTorch aig an dreach gnàthach de synthesis; tha a h-uile stuth “cruaidh-chruaidh” taobh a-staigh a ’mhodail agus pasganan JIT. Chan eil còdan stòr nam modalan air am foillseachadh, a bharrachd air a’ chòd airson modalan ruith bho luchd-dèiligidh PyTorch airson cànanan eile;
  • Tha Libtorch, a tha ri fhaighinn airson àrd-ùrlaran gluasadach, tòrr nas tomadaiche na ùine ruith ONNX, ach chan eil dreach ONNX den mhodail ri fhaighinn fhathast.

Source: fosgailtenet.ru

Cuir beachd ann