پروژه OpenAI که پروژه های عمومی در زمینه هوش مصنوعی را توسعه می دهد، پیشرفت های مربوط به سیستم تشخیص گفتار Whisper را منتشر کرده است. ادعا می شود که برای گفتار به زبان انگلیسی، سیستم سطوحی از قابلیت اطمینان و دقت تشخیص خودکار نزدیک به تشخیص انسانی را ارائه می دهد. کد پیاده سازی مرجع بر اساس چارچوب PyTorch و مجموعه ای از مدل های آموزش دیده آماده برای استفاده، باز شده است. کد تحت مجوز MIT باز است.
برای آموزش مدل، از 680 هزار ساعت داده گفتاری استفاده شد که از چندین مجموعه که زبانها و حوزههای موضوعی مختلف را پوشش میدهند، جمعآوری شد. حدود 1/3 از داده های گفتاری درگیر در آموزش به زبان هایی غیر از انگلیسی است. سیستم پیشنهادی به درستی موقعیتهایی مانند تلفظ برجسته، نویز پسزمینه و استفاده از اصطلاحات فنی را مدیریت میکند. این سیستم علاوه بر رونویسی گفتار به متن، میتواند گفتار را از هر زبانی به انگلیسی ترجمه کند و ظاهر گفتار را در جریان صوتی تشخیص دهد.
مدل ها در دو نمایش تشکیل شده اند: یک مدل برای زبان انگلیسی و یک مدل چند زبانه که از زبان های روسی، اوکراینی و بلاروسی نیز پشتیبانی می کند. به نوبه خود، هر نمایش به 5 گزینه تقسیم می شود که از نظر اندازه و تعداد پارامترهای پوشش داده شده در مدل متفاوت است. هرچه اندازه بزرگتر باشد، دقت و کیفیت تشخیص بیشتر است، اما همچنین نیاز به اندازه حافظه ویدئویی GPU بالاتر و عملکرد کمتری دارد. به عنوان مثال، گزینه حداقل شامل 39 میلیون پارامتر و به 1 گیگابایت حافظه ویدیویی نیاز دارد و حداکثر شامل 1550 میلیون پارامتر و به 10 گیگابایت حافظه ویدیویی نیاز دارد. حداقل گزینه 32 برابر سریعتر از حداکثر است.
این سیستم از معماری شبکه عصبی Transformer استفاده می کند که شامل یک رمزگذار و رمزگشا است که با یکدیگر تعامل دارند. صدا به قطعات 30 ثانیه ای تقسیم می شود که به یک طیف نگار log-Mel تبدیل شده و به رمزگذار ارسال می شود. خروجی رمزگذار به رمزگشا ارسال میشود، که نمایش متنی مخلوط با نشانههای خاص را پیشبینی میکند که در یک مدل کلی اجازه میدهد تا مشکلاتی مانند تشخیص زبان، محاسبه زمانشناسی تلفظ عبارات، رونویسی گفتار را حل کند. زبان های مختلف و ترجمه به انگلیسی.
منبع: opennet.ru