Ný útgáfa af Silero talgervlakerfi

Ný opinber útgáfa af Silero Text-to-Speech taugakerfis talgervlakerfi er fáanleg. Verkefnið miðar fyrst og fremst að því að búa til nútímalegt, hágæða talgervlakerfi sem er ekki síðra en viðskiptalausnir fyrirtækja og er aðgengilegt öllum án þess að nota dýran netþjónabúnað.

Líkönunum er dreift undir GNU AGPL leyfinu, en fyrirtækið sem þróar verkefnið gefur ekki upp kerfi til að þjálfa líkönin. Til að keyra geturðu notað PyTorch og ramma sem styðja ONNX sniðið. Talgervill í Silero byggir á notkun djúpt breyttra nútíma taugakerfisreiknirita og stafrænna merkjavinnsluaðferða.

Það er tekið fram að aðalvandamál nútíma taugakerfislausna fyrir talgervil er að þær eru oft aðeins fáanlegar í greiddum skýjalausnum og opinberar vörur hafa miklar kröfur um vélbúnað, eru af minni gæðum eða eru ekki fullbúnar og tilbúnar til notkunar. vörur. Til dæmis, til að keyra einn af nýju vinsælu end-to-end gervi arkitektúrunum, VITS, snurðulaust í gerviham (þ.e. ekki fyrir módelþjálfun), þarf skjákort með meira en 16 gígabætum af VRAM.

Þvert á núverandi þróun keyra Silero lausnir með góðum árangri jafnvel á 1 x86 þræði Intel örgjörva með AVX2 leiðbeiningum. Á 4 örgjörvaþráðum gerir nýmyndun þér kleift að búa til frá 30 til 60 sekúndum á sekúndu í 8 kHz myndun ham, í 24 kHz ham - 15-20 sekúndur, og í 48 kHz ham - um 10 sekúndur.

Helstu eiginleikar nýju Silero útgáfunnar:

  • Líkanið hefur verið minnkað um 2 sinnum í 50 megabæti;
  • Fyrirsætur vita hvernig á að gera hlé;
  • 4 hágæða raddir á rússnesku eru fáanlegar (og óendanlega margar af handahófi). Dæmi um framburð;
  • Módelin eru orðin 10 sinnum hraðari og til dæmis í 24 kHz ham leyfa þær þér að búa til allt að 20 sekúndur af hljóði á sekúndu á 4 örgjörvaþræði;
  • Öllum raddvalkostum fyrir eitt tungumál er pakkað í eina gerð;
  • Líkön geta samþykkt heilar textagreinar sem inntak, SSML merki eru studd;
  • Myndunin virkar í einu í þremur sýnatökutíðnum til að velja úr - 8, 24 og 48 kílóhertz;
  • „Vandamál barna“ hafa verið leyst: óstöðugleiki og orð sem vantar;
  • Bætt við fánum til að stjórna sjálfvirkri staðsetningu kommura og staðsetningu stafsins „е“.

Eins og er, fyrir nýjustu útgáfuna af samsetningunni, eru 4 raddir á rússnesku opinberlega aðgengilegar, en í náinni framtíð verður næsta útgáfa birt með eftirfarandi breytingum:

  • Nýmyndunarhraðinn mun aukast 2-4 sinnum til viðbótar;
  • Samrunalíkön fyrir CIS tungumál verða uppfærð: Kalmyk, Tatar, Uzbek og úkraínska;
  • Líkön fyrir evrópsk tungumál verða bætt við;
  • Líkönum fyrir indversk tungumál verður bætt við;
  • Módel fyrir ensku verður bætt við.

Sumar kerfisbilanir sem felast í Silero myndun:

  • Ólíkt hefðbundnari myndun lausnum eins og RHVoice, hefur Silero myndun ekki SAPI samþættingu, viðskiptavinum sem auðvelt er að setja upp eða samþættingu fyrir Windows og Android;
  • Hraðinn, þó að hann sé áður óþekktur mikill fyrir slíka lausn, er kannski ekki nægjanlegur fyrir samsetningu á veikum örgjörvum í miklum gæðum;
  • Sjálfvirka hreimlausnin höndlar ekki samsvörun (orð eins og kastali og kastali) og gerir samt mistök, en þetta verður leiðrétt í komandi útgáfum;
  • Núverandi útgáfa af myndun virkar ekki á örgjörvum án AVX2 leiðbeininga (eða þú þarft að breyta PyTorch stillingum sérstaklega) vegna þess að ein einingin inni í líkaninu er magngreind;
  • Núverandi útgáfa af myndun hefur í rauninni eina PyTorch háð; öll fyllingin er „harðvíruð“ inni í líkaninu og JIT pakkanum. Frumkóðar módelanna eru ekki birtir, sem og kóðinn til að keyra líkön frá PyTorch viðskiptavinum fyrir önnur tungumál;
  • Libtorch, fáanlegt fyrir farsímakerfi, er mun fyrirferðarmeiri en ONNX keyrslutími, en ONNX útgáfa af líkaninu er ekki enn fáanleg.

Heimild: opennet.ru

Bæta við athugasemd