موزیلا از موتور تشخیص گفتار DeepSpeech 0.6 رونمایی کرد

ارسال شده توسط انتشار موتور تشخیص گفتار که توسط موزیلا ساخته شده است DeepSpeech 0.6، که معماری تشخیص گفتار به همین نام را پیاده سازی می کند، پیشنهاد شده توسط محققان بایدو پیاده سازی در پایتون با استفاده از پلت فرم یادگیری ماشینی TensorFlow و توزیع شده توسط تحت مجوز رایگان MPL 2.0. از کار بر روی لینوکس، اندروید، macOS و ویندوز پشتیبانی می کند. عملکرد برای استفاده از موتور روی بردهای LePotato، Raspberry Pi 3 و Raspberry Pi 4 کافی است.

همچنین در مجموعه گنجانده شده است ارایه شده مدل های آموزش دیده نمونه ها فایل های صوتی و ابزارهای تشخیص از خط فرمان. برای ادغام تابع تشخیص گفتار در برنامه‌های شما، ماژول‌های آماده برای استفاده Python، NodeJS، C++ و .NET ارائه می‌شوند (توسعه‌دهندگان شخص ثالث ماژول‌هایی را جداگانه برای زنگ и Go). مدل تمام شده فقط برای انگلیسی، اما برای سایر زبان ها توسط شرکت ارائه می شود پیوست شده است دستورالعمل شما می توانید سیستم را خودتان با استفاده از آموزش آموزش دهید داده های صوتی، گردآوری شده توسط پروژه Common Voice.

DeepSpeech بسیار ساده تر از سیستم های سنتی است و در عین حال تشخیص با کیفیت بالاتری را در حضور نویزهای اضافی ارائه می دهد. مدل‌های آکوستیک سنتی و مفهوم واج‌ها را دور می‌زند، در عوض از یک سیستم یادگیری ماشینی مبتنی بر شبکه عصبی بسیار بهینه‌سازی شده استفاده می‌کند که نیاز به توسعه اجزای جداگانه برای مدل‌سازی ناهنجاری‌های مختلف مانند نویز، اکو و ویژگی‌های گفتار را از بین می‌برد.

نقطه ضعف این رویکرد این است که برای به دست آوردن تشخیص و آموزش با کیفیت یک شبکه عصبی، موتور DeepSpeech به مقدار زیادی داده ناهمگن نیاز دارد که در شرایط واقعی توسط صداهای مختلف و در حضور نویز طبیعی دیکته می شود.
پروژه ای که در موزیلا ایجاد شده است، چنین داده هایی را جمع آوری می کند. صدای مشترک، ارائه یک مجموعه داده تایید شده با 780 ساعت زبان انگلیسی325 به زبان آلمانی، 173 به زبان فرانسوی و 27 ساعت به زبان روسی.

هدف نهایی پروژه Common Voice جمع آوری 10 هزار ساعت ضبط از تلفظ های مختلف عبارات معمولی گفتار انسانی است که امکان دستیابی به سطح قابل قبولی از خطاها در تشخیص را فراهم می کند. در شکل فعلی، شرکت کنندگان پروژه قبلاً در مجموع 4.3 هزار ساعت دیکته کرده اند که از این تعداد 3.5 هزار ساعت آزمایش شده است. هنگام آموزش مدل نهایی زبان انگلیسی برای DeepSpeech، 3816 ساعت گفتار، علاوه بر پوشش صدای مشترک داده‌های پروژه‌های LibriSpeech، Fisher و Switchboard، و همچنین شامل حدود 1700 ساعت ضبط برنامه‌های رادیویی رونویسی شده، استفاده شد.

هنگام استفاده از مدل آماده زبان انگلیسی ارائه شده برای دانلود، میزان خطای تشخیص در DeepSpeech در هنگام ارزیابی با مجموعه تست 7.5٪ است. LibriSpeech. برای مقایسه، میزان خطا برای تشخیص انسان تخمین زده 5.83٪

DeepSpeech از دو زیرسیستم تشکیل شده است - یک مدل آکوستیک و یک رمزگشا. مدل آکوستیک از روش‌های یادگیری ماشین عمیق برای محاسبه احتمال وجود کاراکترهای خاص در صدای ورودی استفاده می‌کند. رمزگشا از الگوریتم جستجوی پرتویی برای تبدیل داده های احتمالی کاراکترها به یک نمایش متنی استفاده می کند.

اصلی نوآوری ها DeepSpeech 0.6 (شاخه 0.6 با نسخه های قبلی سازگار نیست و نیاز به به روز رسانی کد و مدل دارد):

  • یک رمزگشای جریان جدید پیشنهاد شده است که پاسخگویی بالاتری را ارائه می دهد و مستقل از اندازه داده های صوتی پردازش شده است. در نتیجه، نسخه جدید DeepSpeech توانست تأخیر تشخیص را به 260 میلی ثانیه کاهش دهد که 73 درصد سریعتر از قبل است و امکان استفاده از DeepSpeech را در راه حل های تشخیص گفتار در حال پرواز فراهم می کند.
  • تغییراتی در API ایجاد شده است و کار برای یکسان سازی نام توابع انجام شده است. توابع برای به دست آوردن ابرداده های اضافی در مورد همگام سازی اضافه شده است، که به شما امکان می دهد نه تنها یک نمایش متن را به عنوان خروجی دریافت کنید، بلکه به شما امکان می دهد اتصال نویسه ها و جملات فردی را به یک موقعیت در جریان صوتی ردیابی کنید.
  • پشتیبانی از استفاده از کتابخانه به جعبه ابزار ماژول های آموزشی اضافه شده است CuDNN برای بهینه سازی کار با شبکه های عصبی مکرر (RNN)، که امکان دستیابی به افزایش قابل توجه (تقریباً دو برابر) در عملکرد آموزش مدل را فراهم کرد، اما نیاز به تغییراتی در کد داشت که سازگاری با مدل های قبلاً آماده شده را نقض می کرد.
  • حداقل مورد نیاز نسخه TensorFlow از 1.13.1 به 1.14.0 افزایش یافته است. پشتیبانی از نسخه سبک TensorFlow Lite اضافه شده است که حجم بسته DeepSpeech را از 98 مگابایت به 3.7 مگابایت کاهش می دهد. برای استفاده در دستگاه های جاسازی شده و موبایل، حجم فایل بسته بندی شده با مدل نیز از 188 مگابایت به 47 مگابایت کاهش یافته است (روش کوانتیزاسیون برای فشرده سازی پس از آموزش مدل استفاده می شود).
  • مدل زبان به فرمت ساختار داده متفاوتی ترجمه شده است که به فایل‌ها اجازه می‌دهد هنگام بارگذاری در حافظه نگاشت شوند. پشتیبانی از فرمت قدیمی قطع شده است.
  • حالت بارگذاری فایل با مدل زبان تغییر کرده است که باعث کاهش مصرف حافظه و کاهش تاخیر در پردازش اولین درخواست پس از ایجاد مدل شده است. در حین کار، DeepSpeech اکنون 22 برابر حافظه کمتری مصرف می کند و 500 برابر سریعتر شروع به کار می کند.

    موزیلا از موتور تشخیص گفتار DeepSpeech 0.6 رونمایی کرد

  • کلمات نادر در مدل زبان فیلتر شدند. تعداد کل کلمات به 500 هزار مورد از محبوب ترین کلمات یافت شده در متن مورد استفاده برای آموزش مدل کاهش یافت. تمیز کردن این امکان را فراهم کرد که اندازه مدل زبان را از 1800 مگابایت به 900 مگابایت کاهش داد و تقریباً هیچ تأثیری بر میزان خطای تشخیص نداشت.
  • اضافه شدن پشتیبانی برای انواع مختلف تکنسین ایجاد تغییرات اضافی (افزایش) داده های صوتی مورد استفاده در آموزش (به عنوان مثال، اضافه کردن اعوجاج یا نویز به مجموعه ای از گزینه ها).
  • یک کتابخانه با اتصالات برای ادغام با برنامه های مبتنی بر پلت فرم دات نت اضافه شد.
  • اسناد دوباره کار شده است و اکنون در یک وب سایت جداگانه جمع آوری شده است. deepspeech.readthedocs.io.

منبع: opennet.ru

اضافه کردن نظر