کد سیستم تشخیص و ترجمه گفتار Whisper باز شده است

پروژه OpenAI که پروژه های عمومی در زمینه هوش مصنوعی را توسعه می دهد، پیشرفت های مربوط به سیستم تشخیص گفتار Whisper را منتشر کرده است. ادعا می شود که برای گفتار به زبان انگلیسی، سیستم سطوحی از قابلیت اطمینان و دقت تشخیص خودکار نزدیک به تشخیص انسانی را ارائه می دهد. کد پیاده سازی مرجع بر اساس چارچوب PyTorch و مجموعه ای از مدل های آموزش دیده آماده برای استفاده، باز شده است. کد تحت مجوز MIT باز است.

برای آموزش مدل، از 680 هزار ساعت داده گفتاری استفاده شد که از چندین مجموعه که زبان‌ها و حوزه‌های موضوعی مختلف را پوشش می‌دهند، جمع‌آوری شد. حدود 1/3 از داده های گفتاری درگیر در آموزش به زبان هایی غیر از انگلیسی است. سیستم پیشنهادی به درستی موقعیت‌هایی مانند تلفظ برجسته، نویز پس‌زمینه و استفاده از اصطلاحات فنی را مدیریت می‌کند. این سیستم علاوه بر رونویسی گفتار به متن، می‌تواند گفتار را از هر زبانی به انگلیسی ترجمه کند و ظاهر گفتار را در جریان صوتی تشخیص دهد.

مدل ها در دو نمایش تشکیل شده اند: یک مدل برای زبان انگلیسی و یک مدل چند زبانه که از زبان های روسی، اوکراینی و بلاروسی نیز پشتیبانی می کند. به نوبه خود، هر نمایش به 5 گزینه تقسیم می شود که از نظر اندازه و تعداد پارامترهای پوشش داده شده در مدل متفاوت است. هرچه اندازه بزرگتر باشد، دقت و کیفیت تشخیص بیشتر است، اما همچنین نیاز به اندازه حافظه ویدئویی GPU بالاتر و عملکرد کمتری دارد. به عنوان مثال، گزینه حداقل شامل 39 میلیون پارامتر و به 1 گیگابایت حافظه ویدیویی نیاز دارد و حداکثر شامل 1550 میلیون پارامتر و به 10 گیگابایت حافظه ویدیویی نیاز دارد. حداقل گزینه 32 برابر سریعتر از حداکثر است.

کد سیستم تشخیص و ترجمه گفتار Whisper باز شده است

این سیستم از معماری شبکه عصبی Transformer استفاده می کند که شامل یک رمزگذار و رمزگشا است که با یکدیگر تعامل دارند. صدا به قطعات 30 ثانیه ای تقسیم می شود که به یک طیف نگار log-Mel تبدیل شده و به رمزگذار ارسال می شود. خروجی رمزگذار به رمزگشا ارسال می‌شود، که نمایش متنی مخلوط با نشانه‌های خاص را پیش‌بینی می‌کند که در یک مدل کلی اجازه می‌دهد تا مشکلاتی مانند تشخیص زبان، محاسبه زمان‌شناسی تلفظ عبارات، رونویسی گفتار را حل کند. زبان های مختلف و ترجمه به انگلیسی.

منبع: opennet.ru

اضافه کردن نظر