نسخه عمومی جدید سیستم سنتز گفتار شبکه عصبی متن به گفتار Silero در دسترس است. هدف اصلی این پروژه ایجاد یک سیستم سنتز گفتار مدرن و باکیفیت است که از راه حل های تجاری شرکت ها کم نیست و بدون استفاده از تجهیزات سرور گران قیمت برای همه قابل دسترسی است.
مدلها تحت مجوز GNU AGPL توزیع میشوند، اما شرکت توسعهدهنده پروژه مکانیسم آموزش مدلها را فاش نمیکند. برای اجرا می توانید از PyTorch و فریمورک هایی که از فرمت ONNX پشتیبانی می کنند استفاده کنید. سنتز گفتار در Silero مبتنی بر استفاده از الگوریتمهای شبکه عصبی مدرن و روشهای پردازش سیگنال دیجیتال است.
خاطرنشان می شود که مشکل اصلی راه حل های شبکه عصبی مدرن برای سنتز گفتار این است که آنها اغلب فقط در راه حل های ابری پولی موجود هستند و محصولات عمومی نیازمند سخت افزار بالایی هستند، کیفیت پایین تری دارند یا کامل و آماده استفاده نیستند. محصولات به عنوان مثال، برای اجرای یکی از معماریهای جدید و محبوب سنتز end-to-end، VITS، به صورت روان در حالت سنتز (یعنی نه برای آموزش مدل)، کارتهای ویدئویی با بیش از 16 گیگابایت VRAM مورد نیاز است.
بر خلاف روند فعلی، راه حل های Silero با موفقیت حتی بر روی 1 رشته 86 یک پردازنده اینتل با دستورالعمل های AVX2 اجرا می شوند. در 4 رشته پردازنده، سنتز به شما امکان می دهد از 30 تا 60 ثانیه در ثانیه در حالت سنتز 8 کیلوهرتز، در حالت 24 کیلوهرتز - 15-20 ثانیه و در حالت 48 کیلوهرتز - حدود 10 ثانیه سنتز کنید.
ویژگی های کلیدی نسخه جدید Silero:
- حجم مدل 2 برابر کاهش یافته و به 50 مگابایت رسیده است.
- مدل ها می دانند چگونه مکث کنند.
- 4 صدای با کیفیت بالا به زبان روسی در دسترس است (و تعداد بی نهایت تصادفی). مثال های تلفظ؛
- مدلها 10 برابر سریعتر شدهاند و بهعنوان مثال، در حالت 24 کیلوهرتز به شما امکان میدهند تا 20 ثانیه صدا را در هر ثانیه روی 4 رشته پردازنده ترکیب کنید.
- همه گزینه های صوتی برای یک زبان در یک مدل بسته بندی شده اند.
- مدل ها می توانند کل پاراگراف های متن را به عنوان ورودی بپذیرند، تگ های SSML پشتیبانی می شوند.
- این سنتز به طور همزمان در سه فرکانس نمونه برداری برای انتخاب - 8، 24 و 48 کیلوهرتز کار می کند.
- "مشکلات کودکان" حل شده است: بی ثباتی و کلمات از دست رفته.
- پرچم هایی برای کنترل قرار دادن خودکار لهجه ها و قرار دادن حرف "е" اضافه شده است.
در حال حاضر، برای جدیدترین نسخه سنتز، 4 صدا به زبان روسی در دسترس عموم است، اما در آینده نزدیک نسخه بعدی با تغییرات زیر منتشر خواهد شد:
- سرعت سنتز 2-4 بار دیگر افزایش می یابد.
- مدلهای ترکیبی برای زبانهای CIS به روز میشوند: کالمیک، تاتاری، ازبکی و اوکراینی.
- مدل هایی برای زبان های اروپایی اضافه خواهد شد.
- مدل هایی برای زبان های هندی اضافه خواهد شد.
- مدل های انگلیسی اضافه خواهد شد.
برخی از خرابی های سیستم ذاتی در سنتز Silero:
- برخلاف راهحلهای سنتز سنتی مانند RHVoice، Silero synthesis یکپارچهسازی SAPI، کلاینتهایی با نصب آسان، یا ادغامهایی برای ویندوز و اندروید ندارد.
- سرعت، اگرچه برای چنین راه حلی بی سابقه است، اما ممکن است برای سنتز در حین پرواز روی پردازنده های ضعیف با کیفیت بالا کافی نباشد.
- راه حل لهجه خودکار از هموگراف ها (کلماتی مانند قلعه و قلعه) استفاده نمی کند و همچنان اشتباه می کند، اما این در نسخه های بعدی اصلاح خواهد شد.
- نسخه فعلی سنتز روی پردازندههای بدون دستورالعمل AVX2 کار نمیکند (یا باید تنظیمات PyTorch را به طور خاص تغییر دهید) زیرا یکی از ماژولهای داخل مدل کوانتیزه شده است.
- نسخه فعلی سنتز اساساً دارای یک وابستگی به PyTorch است؛ تمام مواد پرشده در داخل مدل و بستههای JIT «سیم سخت» هستند. کدهای منبع مدل ها و همچنین کدهای اجرای مدل ها از کلاینت های PyTorch برای زبان های دیگر منتشر نشده است.
- Libtorch که برای پلتفرمهای موبایل در دسترس است، بسیار حجیمتر از زمان اجرا ONNX است، اما نسخه ONNX این مدل هنوز در دسترس نیست.
منبع: opennet.ru