نسخه جدید سیستم سنتز گفتار Silero

نسخه عمومی جدید سیستم سنتز گفتار شبکه عصبی متن به گفتار Silero در دسترس است. هدف اصلی این پروژه ایجاد یک سیستم سنتز گفتار مدرن و باکیفیت است که از راه حل های تجاری شرکت ها کم نیست و بدون استفاده از تجهیزات سرور گران قیمت برای همه قابل دسترسی است.

مدل‌ها تحت مجوز GNU AGPL توزیع می‌شوند، اما شرکت توسعه‌دهنده پروژه مکانیسم آموزش مدل‌ها را فاش نمی‌کند. برای اجرا می توانید از PyTorch و فریمورک هایی که از فرمت ONNX پشتیبانی می کنند استفاده کنید. سنتز گفتار در Silero مبتنی بر استفاده از الگوریتم‌های شبکه عصبی مدرن و روش‌های پردازش سیگنال دیجیتال است.

خاطرنشان می شود که مشکل اصلی راه حل های شبکه عصبی مدرن برای سنتز گفتار این است که آنها اغلب فقط در راه حل های ابری پولی موجود هستند و محصولات عمومی نیازمند سخت افزار بالایی هستند، کیفیت پایین تری دارند یا کامل و آماده استفاده نیستند. محصولات به عنوان مثال، برای اجرای یکی از معماری‌های جدید و محبوب سنتز end-to-end، VITS، به صورت روان در حالت سنتز (یعنی نه برای آموزش مدل)، کارت‌های ویدئویی با بیش از 16 گیگابایت VRAM مورد نیاز است.

بر خلاف روند فعلی، راه حل های Silero با موفقیت حتی بر روی 1 رشته 86 یک پردازنده اینتل با دستورالعمل های AVX2 اجرا می شوند. در 4 رشته پردازنده، سنتز به شما امکان می دهد از 30 تا 60 ثانیه در ثانیه در حالت سنتز 8 کیلوهرتز، در حالت 24 کیلوهرتز - 15-20 ثانیه و در حالت 48 کیلوهرتز - حدود 10 ثانیه سنتز کنید.

ویژگی های کلیدی نسخه جدید Silero:

  • حجم مدل 2 برابر کاهش یافته و به 50 مگابایت رسیده است.
  • مدل ها می دانند چگونه مکث کنند.
  • 4 صدای با کیفیت بالا به زبان روسی در دسترس است (و تعداد بی نهایت تصادفی). مثال های تلفظ؛
  • مدل‌ها 10 برابر سریع‌تر شده‌اند و به‌عنوان مثال، در حالت 24 کیلوهرتز به شما امکان می‌دهند تا 20 ثانیه صدا را در هر ثانیه روی 4 رشته پردازنده ترکیب کنید.
  • همه گزینه های صوتی برای یک زبان در یک مدل بسته بندی شده اند.
  • مدل ها می توانند کل پاراگراف های متن را به عنوان ورودی بپذیرند، تگ های SSML پشتیبانی می شوند.
  • این سنتز به طور همزمان در سه فرکانس نمونه برداری برای انتخاب - 8، 24 و 48 کیلوهرتز کار می کند.
  • "مشکلات کودکان" حل شده است: بی ثباتی و کلمات از دست رفته.
  • پرچم هایی برای کنترل قرار دادن خودکار لهجه ها و قرار دادن حرف "е" اضافه شده است.

در حال حاضر، برای جدیدترین نسخه سنتز، 4 صدا به زبان روسی در دسترس عموم است، اما در آینده نزدیک نسخه بعدی با تغییرات زیر منتشر خواهد شد:

  • سرعت سنتز 2-4 بار دیگر افزایش می یابد.
  • مدل‌های ترکیبی برای زبان‌های CIS به روز می‌شوند: کالمیک، تاتاری، ازبکی و اوکراینی.
  • مدل هایی برای زبان های اروپایی اضافه خواهد شد.
  • مدل هایی برای زبان های هندی اضافه خواهد شد.
  • مدل های انگلیسی اضافه خواهد شد.

برخی از خرابی های سیستم ذاتی در سنتز Silero:

  • برخلاف راه‌حل‌های سنتز سنتی مانند RHVoice، Silero synthesis یکپارچه‌سازی SAPI، کلاینت‌هایی با نصب آسان، یا ادغام‌هایی برای ویندوز و اندروید ندارد.
  • سرعت، اگرچه برای چنین راه حلی بی سابقه است، اما ممکن است برای سنتز در حین پرواز روی پردازنده های ضعیف با کیفیت بالا کافی نباشد.
  • راه حل لهجه خودکار از هموگراف ها (کلماتی مانند قلعه و قلعه) استفاده نمی کند و همچنان اشتباه می کند، اما این در نسخه های بعدی اصلاح خواهد شد.
  • نسخه فعلی سنتز روی پردازنده‌های بدون دستورالعمل AVX2 کار نمی‌کند (یا باید تنظیمات PyTorch را به طور خاص تغییر دهید) زیرا یکی از ماژول‌های داخل مدل کوانتیزه شده است.
  • نسخه فعلی سنتز اساساً دارای یک وابستگی به PyTorch است؛ تمام مواد پرشده در داخل مدل و بسته‌های JIT «سیم سخت» هستند. کدهای منبع مدل ها و همچنین کدهای اجرای مدل ها از کلاینت های PyTorch برای زبان های دیگر منتشر نشده است.
  • Libtorch که برای پلتفرم‌های موبایل در دسترس است، بسیار حجیم‌تر از زمان اجرا ONNX است، اما نسخه ONNX این مدل هنوز در دسترس نیست.

منبع: opennet.ru

اضافه کردن نظر