NVIDIA 1.5 میلیون دلار در پروژه موزیلا Common Voice سرمایه گذاری می کند

انویدیا 1.5 میلیون دلار در پروژه صدای مشترک موزیلا سرمایه گذاری می کند. علاقه به سیستم‌های تشخیص گفتار از این پیش‌بینی ناشی می‌شود که طی ده سال آینده، فناوری صوتی به یکی از راه‌های اصلی تعامل مردم با دستگاه‌هایی از رایانه و تلفن گرفته تا دستیارهای دیجیتال و کیوسک‌ها تبدیل خواهد شد.

عملکرد سیستم های صوتی به شدت به حجم و تنوع داده های صوتی موجود برای آموزش مدل های یادگیری ماشین بستگی دارد. فناوری صدای امروزی در درجه اول بر تشخیص زبان انگلیسی تمرکز دارد و گستره وسیعی از زبان ها، لهجه ها و الگوهای گفتار را پوشش نمی دهد. این سرمایه‌گذاری به تسریع رشد داده‌های صوتی عمومی، مشارکت بیشتر جوامع و داوطلبان و افزایش تعداد کارکنان تمام وقت پروژه کمک می‌کند.

به شما یادآوری می کنیم که پروژه Common Voice با هدف سازماندهی کار مشترک برای جمع آوری پایگاه داده ای از الگوهای صوتی است که تنوع صداها و سبک های گفتار را در نظر می گیرد. کاربران به عبارات صوتی نمایش داده شده بر روی صفحه یا ارزیابی کیفیت داده های اضافه شده توسط سایر کاربران دعوت می شوند. پایگاه داده انباشته شده با سوابق تلفظ های مختلف عبارات معمولی گفتار انسان را می توان بدون محدودیت در سیستم های یادگیری ماشینی و در پروژه های تحقیقاتی استفاده کرد.

مجموعه صدای مشترک در حال حاضر شامل نمونه های تلفظ از بیش از 164 نفر است. حدود 9 هزار ساعت داده صوتی در 60 زبان مختلف جمع آوری شده است. این مجموعه برای زبان روسی 1412 شرکت کننده و 111 ساعت مطالب گفتاری را پوشش می دهد و برای زبان اوکراینی - 459 شرکت کننده و 30 ساعت. برای مقایسه، بیش از 66 هزار نفر در تهیه مطالب به زبان انگلیسی شرکت کردند و 1686 ساعت سخنرانی تأیید شده را دیکته کردند. مجموعه‌های پیشنهادی را می‌توان در سیستم‌های یادگیری ماشین برای ساخت مدل‌های تشخیص و سنتز گفتار استفاده کرد. داده ها به عنوان دامنه عمومی (CC0) منتشر می شود.

به گفته نویسنده کتابخانه تشخیص گفتار پیوسته Vosk، معایب مجموعه صدای مشترک یک طرفه بودن مواد صوتی (غلبه مردان 20-30 ساله و کمبود مطالب با صدای زنان است. ، کودکان و سالمندان)، عدم تنوع در فرهنگ لغت (تکرار عبارات مشابه) و توزیع ضبط شده در فرمت MP3 تحریف کننده.

منبع: opennet.ru

اضافه کردن نظر