Rhyddhad newydd o system synthesis lleferydd Silero

Mae datganiad cyhoeddus newydd o system synthesis lleferydd rhwydwaith niwral Text-to-Speech Silero ar gael. Mae'r prosiect wedi'i anelu'n bennaf at greu system synthesis llais fodern o ansawdd uchel nad yw'n israddol i atebion masnachol gan gorfforaethau ac sy'n hygyrch i bawb heb ddefnyddio offer gweinydd drud.

Dosberthir y modelau o dan drwydded GNU AGPL, ond nid yw'r cwmni sy'n datblygu'r prosiect yn datgelu'r mecanwaith ar gyfer hyfforddi'r modelau. I redeg, gallwch ddefnyddio PyTorch a fframweithiau sy'n cefnogi fformat ONNX. Mae synthesis lleferydd yn Silero yn seiliedig ar ddefnyddio algorithmau rhwydwaith niwral modern wedi'u haddasu'n ddwfn a dulliau prosesu signal digidol.

Nodir mai prif broblem atebion rhwydwaith niwral modern ar gyfer synthesis lleferydd yw eu bod yn aml ar gael o fewn datrysiadau cwmwl taledig yn unig, ac mae gan gynhyrchion cyhoeddus ofynion caledwedd uchel, maent o ansawdd is, neu nid ydynt yn gyflawn ac yn barod i'w defnyddio. cynnyrch. Er enghraifft, i redeg un o'r pensaernïaeth synthesis poblogaidd newydd o'r dechrau i'r diwedd, VITS, yn llyfn yn y modd synthesis (hynny yw, nid ar gyfer hyfforddiant model), mae angen cardiau fideo gyda mwy na 16 gigabeit o VRAM.

Yn groes i'r duedd bresennol, mae atebion Silero yn rhedeg yn llwyddiannus hyd yn oed ar edau 1 x86 o brosesydd Intel gyda chyfarwyddiadau AVX2. Ar 4 edafedd prosesydd, mae synthesis yn caniatáu ichi syntheseiddio o 30 i 60 eiliad yr eiliad yn y modd synthesis 8 kHz, yn y modd 24 kHz - 15-20 eiliad, ac yn y modd 48 kHz - tua 10 eiliad.

Nodweddion allweddol y datganiad Silero newydd:

  • Mae maint y model wedi'i leihau 2 waith i 50 megabeit;
  • Mae modelau yn gwybod sut i oedi;
  • Mae 4 llais o ansawdd uchel yn Rwsieg ar gael (a nifer anfeidrol o rai ar hap). Enghreifftiau ynganu;
  • Mae'r modelau wedi dod 10 gwaith yn gyflymach ac, er enghraifft, yn y modd 24 kHz maent yn caniatáu ichi syntheseiddio hyd at 20 eiliad o sain yr eiliad ar 4 edefyn prosesydd;
  • Mae'r holl opsiynau llais ar gyfer un iaith yn cael eu pecynnu mewn un model;
  • Gall modelau dderbyn paragraffau cyfan o destun fel mewnbwn, cefnogir tagiau SSML;
  • Mae'r synthesis yn gweithio ar unwaith mewn tri amlder samplu i ddewis ohonynt - 8, 24 a 48 cilohertz;
  • Mae “problemau plant” wedi cael eu datrys: ansefydlogrwydd a geiriau coll;
  • Ychwanegwyd baneri i reoli gosod acenion yn awtomatig a lleoliad y llythyren “е”.

Ar hyn o bryd, ar gyfer y fersiwn diweddaraf o'r synthesis, mae 4 llais yn Rwsieg ar gael i'r cyhoedd, ond yn y dyfodol agos bydd y fersiwn nesaf yn cael ei chyhoeddi gyda'r newidiadau canlynol:

  • Bydd y gyfradd synthesis yn cynyddu 2-4 gwaith arall;
  • Bydd modelau synthesis ar gyfer ieithoedd CIS yn cael eu diweddaru: Kalmyk, Tatar, Wsbeceg a Wcreineg;
  • Ychwanegir modelau ar gyfer ieithoedd Ewropeaidd;
  • Ychwanegir modelau ar gyfer ieithoedd Indiaidd;
  • Bydd modelau ar gyfer Saesneg yn cael eu hychwanegu.

Rhai o'r dadansoddiadau system sy'n gynhenid ​​i synthesis Silero:

  • Yn wahanol i atebion synthesis mwy traddodiadol megis RHVoice, nid oes gan synthesis Silero integreiddiad SAPI, cleientiaid hawdd eu gosod, nac integreiddiadau ar gyfer Windows a Android;
  • Efallai na fydd y cyflymder, er ei fod yn ddigynsail o uchel ar gyfer datrysiad o'r fath, yn ddigonol ar gyfer synthesis ar-y-hedfan ar broseswyr gwan o ansawdd uchel;
  • Nid yw'r ateb auto-acen yn trin homograffau (geiriau fel castell a chastell) ac mae'n dal i wneud camgymeriadau, ond bydd hyn yn cael ei gywiro mewn datganiadau yn y dyfodol;
  • Nid yw'r fersiwn gyfredol o synthesis yn gweithio ar broseswyr heb gyfarwyddiadau AVX2 (neu mae angen i chi newid gosodiadau PyTorch yn benodol) oherwydd bod un o'r modiwlau y tu mewn i'r model wedi'i feintioli;
  • Yn ei hanfod mae gan y fersiwn gyfredol o synthesis un ddibyniaeth PyTorch; mae'r holl stwffin wedi'i “weirio'n galed” y tu mewn i'r pecynnau model a JIT. Nid yw codau ffynhonnell y modelau yn cael eu cyhoeddi, yn ogystal â'r cod ar gyfer rhedeg modelau gan gleientiaid PyTorch ar gyfer ieithoedd eraill;
  • Mae Libtorch, sydd ar gael ar gyfer llwyfannau symudol, yn llawer mwy swmpus nag amser rhedeg ONNX, ond nid yw fersiwn ONNX o'r model ar gael eto.

Ffynhonnell: opennet.ru

Ychwanegu sylw