A Silero beszédszintézis rendszer új kiadása

Megjelent a Silero Text-to-Speech neurális hálózati beszédszintézis rendszer új nyilvános kiadása. A projekt elsősorban egy olyan modern, jó minőségű beszédszintézis rendszer létrehozását célozza, amely nem rosszabb, mint a vállalatok kereskedelmi megoldásai, és drága szerverberendezések használata nélkül mindenki számára elérhető.

A modelleket GNU AGPL licenc alatt forgalmazzák, de a projektet fejlesztő cég nem hozza nyilvánosságra a modellek betanításának mechanizmusát. A futtatáshoz használhatja a PyTorch-ot és az ONNX formátumot támogató keretrendszereket. A Silero beszédszintézise mélyen módosított modern neurális hálózati algoritmusokon és digitális jelfeldolgozási módszereken alapul.

Megjegyzendő, hogy a beszédszintézisre szolgáló modern neurális hálózati megoldások fő problémája az, hogy gyakran csak fizetős felhőmegoldásokon belül érhetők el, és a nyilvános termékek magas hardverigényűek, gyengébb minőségűek, vagy nem teljesek és használatra készek. Termékek. Például az egyik új népszerű végpontok közötti szintézis architektúra, a VITS zökkenőmentes futtatásához szintézis módban (tehát nem modell betanításhoz) több mint 16 gigabájt VRAM-mal rendelkező videokártyákra van szükség.

A jelenlegi trenddel ellentétben a Silero megoldások még 1 x86-os Intel processzoron is sikeresen futnak AVX2 utasításokkal. A 4 processzorszálon a szintézis lehetővé teszi, hogy másodpercenként 30-60 másodpercig szintetizáljon 8 kHz-es szintézis módban, 24 kHz-es módban - 15-20 másodperc, 48 kHz-es módban pedig körülbelül 10 másodperc.

Az új Silero kiadás főbb jellemzői:

  • A modell mérete kétszeresére, 2 megabájtra csökkent;
  • A modellek tudják, hogyan kell szünetet tartani;
  • 4 kiváló minőségű orosz hang érhető el (és végtelen számú véletlenszerű). Kiejtési példák;
  • A modellek 10-szer gyorsabbak lettek, és például 24 kHz-es módban másodpercenként akár 20 másodpercnyi hang szintetizálását is lehetővé teszik 4 processzorszálon;
  • Egy nyelvhez tartozó összes hangbeállítás egyetlen modellbe van csomagolva;
  • A modellek teljes szövegbekezdést tudnak fogadni bevitelként, az SSML címkék támogatottak;
  • A szintézis egyszerre három mintavételi frekvencián működik – 8, 24 és 48 kilohertz;
  • A „gyerekek problémái” megoldódtak: instabilitás és hiányzó szavak;
  • Hozzáadott zászlók az ékezetek automatikus elhelyezésének és az „е” betű elhelyezésének szabályozásához.

Jelenleg a szintézis legújabb verziójához 4 orosz nyelvű hang érhető el nyilvánosan, de a közeljövőben megjelenik a következő verzió a következő változtatásokkal:

  • A szintézis sebessége további 2-4-szeresére nő;
  • A FÁK-nyelvek szintézismodelljei frissítésre kerülnek: kalmük, tatár, üzbég és ukrán;
  • Az európai nyelvekhez használható modellek hozzáadásra kerülnek;
  • Az indiai nyelvek modelljei hozzáadásra kerülnek;
  • Az angol nyelvű modellek hozzáadásra kerülnek.

A Silero szintézisben rejlő rendszerhibák közül néhány:

  • Ellentétben a hagyományos szintézis megoldásokkal, mint például az RHVoice, a Silero szintézis nem rendelkezik SAPI-integrációval, könnyen telepíthető kliensekkel vagy integrációkkal Windows és Android rendszerekhez;
  • A sebesség, bár példátlanul magas egy ilyen megoldáshoz, nem biztos, hogy elégséges a menet közbeni szintézishez gyenge processzorokon jó minőségben;
  • Az automatikus ékezetes megoldás nem kezeli a homográfokat (olyan szavakat, mint a vár és a vár), és továbbra is hibázik, de ezt a későbbi kiadásokban javítani fogják;
  • A szintézis jelenlegi verziója nem működik AVX2 utasítások nélküli processzorokon (vagy konkrétan módosítani kell a PyTorch beállításait), mert a modellben lévő egyik modul kvantált;
  • A szintézis jelenlegi verziója lényegében egyetlen PyTorch-függőséggel rendelkezik; az összes töltelék „be van kötve” a modellen és a JIT-csomagokon belül. A modellek forráskódjait nem tesszük közzé, valamint a PyTorch kliensekből származó modellek futtatásának kódját más nyelvekhez;
  • A mobil platformokra elérhető Libtorch sokkal terjedelmesebb, mint az ONNX futtatókörnyezete, de a modell ONNX verziója még nem érhető el.

Forrás: opennet.ru

Hozzászólás