انویدیا 1.5 میلیون دلار در پروژه صدای مشترک موزیلا سرمایه گذاری می کند. علاقه به سیستمهای تشخیص گفتار از این پیشبینی ناشی میشود که طی ده سال آینده، فناوری صوتی به یکی از راههای اصلی تعامل مردم با دستگاههایی از رایانه و تلفن گرفته تا دستیارهای دیجیتال و کیوسکها تبدیل خواهد شد.
عملکرد سیستم های صوتی به شدت به حجم و تنوع داده های صوتی موجود برای آموزش مدل های یادگیری ماشین بستگی دارد. فناوری صدای امروزی در درجه اول بر تشخیص زبان انگلیسی تمرکز دارد و گستره وسیعی از زبان ها، لهجه ها و الگوهای گفتار را پوشش نمی دهد. این سرمایهگذاری به تسریع رشد دادههای صوتی عمومی، مشارکت بیشتر جوامع و داوطلبان و افزایش تعداد کارکنان تمام وقت پروژه کمک میکند.
به شما یادآوری می کنیم که پروژه Common Voice با هدف سازماندهی کار مشترک برای جمع آوری پایگاه داده ای از الگوهای صوتی است که تنوع صداها و سبک های گفتار را در نظر می گیرد. کاربران به عبارات صوتی نمایش داده شده بر روی صفحه یا ارزیابی کیفیت داده های اضافه شده توسط سایر کاربران دعوت می شوند. پایگاه داده انباشته شده با سوابق تلفظ های مختلف عبارات معمولی گفتار انسان را می توان بدون محدودیت در سیستم های یادگیری ماشینی و در پروژه های تحقیقاتی استفاده کرد.
مجموعه صدای مشترک در حال حاضر شامل نمونه های تلفظ از بیش از 164 نفر است. حدود 9 هزار ساعت داده صوتی در 60 زبان مختلف جمع آوری شده است. این مجموعه برای زبان روسی 1412 شرکت کننده و 111 ساعت مطالب گفتاری را پوشش می دهد و برای زبان اوکراینی - 459 شرکت کننده و 30 ساعت. برای مقایسه، بیش از 66 هزار نفر در تهیه مطالب به زبان انگلیسی شرکت کردند و 1686 ساعت سخنرانی تأیید شده را دیکته کردند. مجموعههای پیشنهادی را میتوان در سیستمهای یادگیری ماشین برای ساخت مدلهای تشخیص و سنتز گفتار استفاده کرد. داده ها به عنوان دامنه عمومی (CC0) منتشر می شود.
به گفته نویسنده کتابخانه تشخیص گفتار پیوسته Vosk، معایب مجموعه صدای مشترک یک طرفه بودن مواد صوتی (غلبه مردان 20-30 ساله و کمبود مطالب با صدای زنان است. ، کودکان و سالمندان)، عدم تنوع در فرهنگ لغت (تکرار عبارات مشابه) و توزیع ضبط شده در فرمت MP3 تحریف کننده.
منبع: opennet.ru