Mae datganiad cyhoeddus newydd o system synthesis lleferydd rhwydwaith niwral Text-to-Speech Silero ar gael. Mae'r prosiect wedi'i anelu'n bennaf at greu system synthesis llais fodern o ansawdd uchel nad yw'n israddol i atebion masnachol gan gorfforaethau ac sy'n hygyrch i bawb heb ddefnyddio offer gweinydd drud.
Dosberthir y modelau o dan drwydded GNU AGPL, ond nid yw'r cwmni sy'n datblygu'r prosiect yn datgelu'r mecanwaith ar gyfer hyfforddi'r modelau. I redeg, gallwch ddefnyddio PyTorch a fframweithiau sy'n cefnogi fformat ONNX. Mae synthesis lleferydd yn Silero yn seiliedig ar ddefnyddio algorithmau rhwydwaith niwral modern wedi'u haddasu'n ddwfn a dulliau prosesu signal digidol.
Nodir mai prif broblem atebion rhwydwaith niwral modern ar gyfer synthesis lleferydd yw eu bod yn aml ar gael o fewn datrysiadau cwmwl taledig yn unig, ac mae gan gynhyrchion cyhoeddus ofynion caledwedd uchel, maent o ansawdd is, neu nid ydynt yn gyflawn ac yn barod i'w defnyddio. cynnyrch. Er enghraifft, i redeg un o'r pensaernïaeth synthesis poblogaidd newydd o'r dechrau i'r diwedd, VITS, yn llyfn yn y modd synthesis (hynny yw, nid ar gyfer hyfforddiant model), mae angen cardiau fideo gyda mwy na 16 gigabeit o VRAM.
Yn groes i'r duedd bresennol, mae atebion Silero yn rhedeg yn llwyddiannus hyd yn oed ar edau 1 x86 o brosesydd Intel gyda chyfarwyddiadau AVX2. Ar 4 edafedd prosesydd, mae synthesis yn caniatáu ichi syntheseiddio o 30 i 60 eiliad yr eiliad yn y modd synthesis 8 kHz, yn y modd 24 kHz - 15-20 eiliad, ac yn y modd 48 kHz - tua 10 eiliad.
Nodweddion allweddol y datganiad Silero newydd:
- Mae maint y model wedi'i leihau 2 waith i 50 megabeit;
- Mae modelau yn gwybod sut i oedi;
- Mae 4 llais o ansawdd uchel yn Rwsieg ar gael (a nifer anfeidrol o rai ar hap). Enghreifftiau ynganu;
- Mae'r modelau wedi dod 10 gwaith yn gyflymach ac, er enghraifft, yn y modd 24 kHz maent yn caniatáu ichi syntheseiddio hyd at 20 eiliad o sain yr eiliad ar 4 edefyn prosesydd;
- Mae'r holl opsiynau llais ar gyfer un iaith yn cael eu pecynnu mewn un model;
- Gall modelau dderbyn paragraffau cyfan o destun fel mewnbwn, cefnogir tagiau SSML;
- Mae'r synthesis yn gweithio ar unwaith mewn tri amlder samplu i ddewis ohonynt - 8, 24 a 48 cilohertz;
- Mae “problemau plant” wedi cael eu datrys: ansefydlogrwydd a geiriau coll;
- Ychwanegwyd baneri i reoli gosod acenion yn awtomatig a lleoliad y llythyren “е”.
Ar hyn o bryd, ar gyfer y fersiwn diweddaraf o'r synthesis, mae 4 llais yn Rwsieg ar gael i'r cyhoedd, ond yn y dyfodol agos bydd y fersiwn nesaf yn cael ei chyhoeddi gyda'r newidiadau canlynol:
- Bydd y gyfradd synthesis yn cynyddu 2-4 gwaith arall;
- Bydd modelau synthesis ar gyfer ieithoedd CIS yn cael eu diweddaru: Kalmyk, Tatar, Wsbeceg a Wcreineg;
- Ychwanegir modelau ar gyfer ieithoedd Ewropeaidd;
- Ychwanegir modelau ar gyfer ieithoedd Indiaidd;
- Bydd modelau ar gyfer Saesneg yn cael eu hychwanegu.
Rhai o'r dadansoddiadau system sy'n gynhenid i synthesis Silero:
- Yn wahanol i atebion synthesis mwy traddodiadol megis RHVoice, nid oes gan synthesis Silero integreiddiad SAPI, cleientiaid hawdd eu gosod, nac integreiddiadau ar gyfer Windows a Android;
- Efallai na fydd y cyflymder, er ei fod yn ddigynsail o uchel ar gyfer datrysiad o'r fath, yn ddigonol ar gyfer synthesis ar-y-hedfan ar broseswyr gwan o ansawdd uchel;
- Nid yw'r ateb auto-acen yn trin homograffau (geiriau fel castell a chastell) ac mae'n dal i wneud camgymeriadau, ond bydd hyn yn cael ei gywiro mewn datganiadau yn y dyfodol;
- Nid yw'r fersiwn gyfredol o synthesis yn gweithio ar broseswyr heb gyfarwyddiadau AVX2 (neu mae angen i chi newid gosodiadau PyTorch yn benodol) oherwydd bod un o'r modiwlau y tu mewn i'r model wedi'i feintioli;
- Yn ei hanfod mae gan y fersiwn gyfredol o synthesis un ddibyniaeth PyTorch; mae'r holl stwffin wedi'i “weirio'n galed” y tu mewn i'r pecynnau model a JIT. Nid yw codau ffynhonnell y modelau yn cael eu cyhoeddi, yn ogystal â'r cod ar gyfer rhedeg modelau gan gleientiaid PyTorch ar gyfer ieithoedd eraill;
- Mae Libtorch, sydd ar gael ar gyfer llwyfannau symudol, yn llawer mwy swmpus nag amser rhedeg ONNX, ond nid yw fersiwn ONNX o'r model ar gael eto.
Ffynhonnell: opennet.ru