إصدار جديد من نظام سيليرو لتركيب الكلام

يتوفر إصدار عام جديد من نظام Silero Text-to-Speech لتخليق الكلام للشبكة العصبية. يهدف المشروع في المقام الأول إلى إنشاء نظام حديث عالي الجودة لتخليق الكلام لا يكون أدنى من الحلول التجارية من الشركات ومتاح للجميع دون استخدام معدات خادم باهظة الثمن.

يتم توزيع النماذج بموجب ترخيص GNU AGPL ، لكن الشركة التي تقوم بتطوير المشروع لا تكشف عن آلية نماذج التدريب. لبدء التشغيل ، يمكنك استخدام PyTorch والأطر التي تدعم تنسيق ONNX. يعتمد تركيب الكلام في Silero على استخدام خوارزميات الشبكة العصبية الحديثة المعدلة بعمق وطرق معالجة الإشارات الرقمية.

وتجدر الإشارة إلى أن المشكلة الرئيسية لحلول الشبكات العصبية الحديثة لتركيب الكلام هي أنها غالبًا ما تكون متاحة فقط كجزء من الحلول السحابية المدفوعة ، والمنتجات العامة لها متطلبات أجهزة عالية ، وجودة أقل أو منتجات غير منتهية وجاهزة للاستخدام. . على سبيل المثال ، لتشغيل واحدة من أبنية التوليف الشاملة الجديدة الشائعة بسلاسة ، VITS ، في وضع التوليف (أي ليس لتدريب النموذج) ، يلزم وجود بطاقات فيديو بأكثر من 16 غيغابايت من VRAM.

على عكس الاتجاه الحالي ، تعمل حلول Silero بنجاح حتى على خيط 1 x86 لمعالج Intel مع تعليمات AVX2. في 4 خيوط للمعالج ، يتيح لك التوليف توليف من 30 إلى 60 ثانية في الثانية في وضع التوليف 8 كيلوهرتز ، في وضع 24 كيلوهرتز - 15-20 ثانية ، وفي وضع 48 كيلوهرتز - حوالي 10 ثوانٍ.

الملامح الرئيسية لإصدار Silero الجديد:

  • يتم تقليل حجم النموذج بمقدار مرتين إلى 2 ميغا بايت ؛
  • النماذج تعرف كيف تتوقف.
  • تتوفر 4 أصوات عالية الجودة باللغة الروسية (وعدد لا حصر له من الأصوات العشوائية). أمثلة النطق ؛
  • أصبحت النماذج أسرع 10 مرات ، وعلى سبيل المثال ، في وضع 24 كيلوهرتز ، يمكنها توليف ما يصل إلى 20 ثانية من الصوت في الثانية على 4 خيوط للمعالج ؛
  • يتم تجميع جميع خيارات الصوت للغة واحدة في نموذج واحد ؛
  • يمكن أن تقبل النماذج فقرات كاملة من النص كمدخلات ، ويتم دعم علامات SSML ؛
  • يعمل التوليف على الفور بثلاثة معدلات أخذ عينات للاختيار من بينها - 8 و 24 و 48 كيلوهرتز ؛
  • حل "مشاكل الأطفال": عدم الاستقرار وحذف الكلمات ؛
  • تمت إضافة علامات للتحكم في الوضع التلقائي للعلامات الصوتية ووضع الحرف "ё".

الآن للحصول على أحدث إصدار من التوليف ، تتوفر 4 أصوات باللغة الروسية للجمهور ، ولكن سيتم نشر الإصدار التالي في المستقبل القريب مع التغييرات التالية:

  • سيزداد معدل التوليف بمقدار 2-4 مرات أخرى ؛
  • سيتم تحديث النماذج التجميعية للغات رابطة الدول المستقلة: كالميك والتتار والأوزبكية والأوكرانية ؛
  • سيتم إضافة نماذج للغات الأوروبية ؛
  • سيتم إضافة نماذج للغات الهندية ؛
  • سيتم إضافة نماذج للغة الإنجليزية.

بعض أعطال النظام المتأصلة في تخليق Silero هي:

  • على عكس المزيد من حلول التوليف التقليدية مثل RHVoice ، لا يحتوي Silero synthesis على تكامل SAPI وعملاء سهل التثبيت وتكامل Windows و Android ؛
  • السرعة ، على الرغم من ارتفاعها بشكل غير مسبوق لمثل هذا الحل ، قد لا تكون كافية للتوليف أثناء الطيران على المعالجات الضعيفة ذات الجودة العالية ؛
  • لا يتعامل حل الإجهاد التلقائي مع التماثلات (كلمات مثل القلعة والقلعة) ولا يزال يرتكب أخطاء ، ولكن سيتم إصلاح هذا الخلل في الإصدارات المستقبلية ؛
  • لا يعمل الإصدار الحالي من التوليف على المعالجات بدون تعليمات AVX2 (أو تحتاج إلى تغيير إعدادات PyTorch على وجه التحديد) ، لأن إحدى الوحدات النمطية داخل النموذج محددة ؛
  • يحتوي الإصدار الحالي من التوليف بشكل أساسي على تبعية PyTorch الوحيدة ، وكل الحشو "مثبت" داخل النموذج وحزم JIT. لم يتم نشر مصادر النماذج ، بالإضافة إلى الكود الخاص بتشغيل النماذج من عملاء PyTorch للغات أخرى ؛
  • يعد libtorch المتاح لمنصات الأجهزة المحمولة أكثر تعقيدًا من وقت تشغيل ONNX ، ولكن لم يتم توفير إصدار ONNX من النموذج حتى الآن.

المصدر: opennet.ru

إضافة تعليق