NVIDIA ลงทุน 1.5 ล้านเหรียญสหรัฐในโครงการ Mozilla Common Voice

NVIDIA ลงทุน 1.5 ล้านเหรียญสหรัฐในโครงการ Mozilla Common Voice ความสนใจในระบบรู้จำเสียงเกิดจากการทำนายว่าในอีกสิบปีข้างหน้า เทคโนโลยีเสียงจะกลายเป็นหนึ่งในวิธีหลักที่ผู้คนโต้ตอบกับอุปกรณ์ต่างๆ ตั้งแต่คอมพิวเตอร์และโทรศัพท์ ไปจนถึงผู้ช่วยดิจิทัลและคีออสก์

ประสิทธิภาพของระบบเสียงขึ้นอยู่กับระดับเสียงและความหลากหลายของข้อมูลเสียงที่มีสำหรับการฝึกโมเดลการเรียนรู้ของเครื่อง เทคโนโลยีเสียงในปัจจุบันมุ่งเน้นไปที่การรู้จำภาษาอังกฤษเป็นหลัก และไม่ครอบคลุมภาษา สำเนียง และรูปแบบคำพูดที่หลากหลาย การลงทุนนี้จะช่วยเร่งการเติบโตของข้อมูลเสียงสาธารณะ มีส่วนร่วมกับชุมชนและอาสาสมัครมากขึ้น และขยายจำนวนเจ้าหน้าที่ประจำโครงการ

เราขอเตือนคุณว่าโครงการ Common Voice มีวัตถุประสงค์เพื่อจัดงานร่วมกันเพื่อรวบรวมฐานข้อมูลรูปแบบเสียงที่คำนึงถึงความหลากหลายของเสียงและรูปแบบการพูด ผู้ใช้จะได้รับเชิญให้ใช้วลีเสียงที่แสดงบนหน้าจอหรือประเมินคุณภาพของข้อมูลที่เพิ่มโดยผู้ใช้รายอื่น ฐานข้อมูลที่สะสมพร้อมบันทึกการออกเสียงวลีทั่วไปของคำพูดของมนุษย์สามารถใช้งานได้โดยไม่มีข้อจำกัดในระบบการเรียนรู้ของเครื่องและในโครงการวิจัย

ปัจจุบันชุด Common Voice มีตัวอย่างการออกเสียงจากผู้คนมากกว่า 164 คน ข้อมูลเสียงประมาณ 9 ชั่วโมงถูกสะสมไว้ใน 60 ภาษา ชุดสำหรับภาษารัสเซียครอบคลุมผู้เข้าร่วม 1412 คนและสื่อการพูด 111 ชั่วโมงและสำหรับภาษายูเครน - ผู้เข้าร่วม 459 คนและ 30 ชั่วโมง สำหรับการเปรียบเทียบ มีผู้คนมากกว่า 66 คนมีส่วนร่วมในการเตรียมสื่อเป็นภาษาอังกฤษ โดยใช้เวลาพูด 1686 ชั่วโมง ชุดที่นำเสนอสามารถใช้ในระบบการเรียนรู้ของเครื่องเพื่อสร้างแบบจำลองการรู้จำเสียงและการสังเคราะห์เสียง ข้อมูลถูกเผยแพร่เป็นสาธารณสมบัติ (CC0)

ตามที่ผู้เขียนไลบรารีการรู้จำคำพูดต่อเนื่อง Vosk ข้อเสียของชุด Common Voice คือความเป็นด้านเดียวของวัสดุเสียง (ความเด่นของผู้ชายอายุ 20-30 ปีและการขาดเนื้อหาที่มีเสียงของผู้หญิง เด็กและผู้สูงอายุ) การขาดความแปรปรวนในพจนานุกรม (การซ้ำวลีเดียวกัน) และการกระจายการบันทึกในรูปแบบ MP3 ที่บิดเบือน

ที่มา: opennet.ru

เพิ่มความคิดเห็น