อัพเดต Mozilla Common Voice 7.0

NVIDIA และ Mozilla ได้เปิดตัวการอัปเดตชุดข้อมูล Common Voice ซึ่งรวมถึงตัวอย่างคำพูดของผู้คน 182 คน เพิ่มขึ้น 25% จาก 6 เดือนที่ผ่านมา ข้อมูลถูกเผยแพร่เป็นสาธารณสมบัติ (CC0) ชุดที่นำเสนอสามารถใช้ในระบบการเรียนรู้ของเครื่องเพื่อสร้างแบบจำลองการรู้จำเสียงและการสังเคราะห์เสียง

เมื่อเทียบกับการอัปเดตครั้งก่อน ขนาดของเนื้อหาคำพูดในคอลเลกชันเพิ่มขึ้นจาก 9 เป็น 13.9 พันชั่วโมงในการพูด จำนวนภาษาที่รองรับเพิ่มขึ้นจาก 60 เป็น 76 รวมถึงเป็นครั้งแรกที่รองรับภาษาเบลารุส คาซัค อุซเบก บัลแกเรีย อาร์เมเนีย อาเซอร์ไบจัน และบัชคีร์ ชุดสำหรับภาษารัสเซียครอบคลุมผู้เข้าร่วม 2136 คนและสื่อการพูด 173 ชั่วโมง (มีผู้เข้าร่วม 1412 คนและ 111 ชั่วโมง) และสำหรับภาษายูเครน - ผู้เข้าร่วม 615 คนและ 66 ชั่วโมง (มีผู้เข้าร่วม 459 คนและ 30 ชั่วโมง)

มีผู้คนมากกว่า 75 คนมีส่วนร่วมในการเตรียมสื่อภาษาอังกฤษโดยกำหนดคำพูดที่ยืนยันแล้ว 2637 ชั่วโมง (มีผู้เข้าร่วม 66 คนและ 1686 ชั่วโมง) ที่น่าสนใจคือภาษาอันดับที่สองในแง่ของจำนวนข้อมูลที่สะสมคือรวันดาซึ่งรวบรวมได้ 2260 ชั่วโมง ตามมาด้วยภาษาเยอรมัน (1040) คาตาลัน (920) และเอสเปรันโต (840) ขนาดของข้อมูลเสียงที่เพิ่มขึ้นแบบไดนามิกมากที่สุด ได้แก่ ภาษาไทย (ฐานเพิ่มขึ้น 20 เท่าจาก 12 เป็น 250 ชั่วโมง) ลูกันดา (จาก 8 เป็น 80 ชั่วโมง) เอสเปรันโต (จาก 100 เป็น 840 ชั่วโมง) และทมิฬ ( จาก 24 ถึง 220 ชั่วโมง) ชั่วโมง)

ในฐานะส่วนหนึ่งของการมีส่วนร่วมในโครงการ Common Voice นั้น NVIDIA ได้เตรียมโมเดลการฝึกอบรมสำเร็จรูปสำหรับระบบการเรียนรู้ของเครื่อง (สนับสนุนโดย PyTorch) ตามข้อมูลที่รวบรวม โมเดลดังกล่าวได้รับการเผยแพร่โดยเป็นส่วนหนึ่งของชุดเครื่องมือ NVIDIA NeMo แบบเปิดและฟรี ซึ่งตัวอย่างเช่น ได้ใช้ในบริการเสียงอัตโนมัติของ MTS และ Sberbank แล้ว แบบจำลองนี้มีจุดประสงค์เพื่อใช้ในการรู้จำเสียง การสังเคราะห์เสียงพูด และระบบประมวลผลภาษาธรรมชาติ และอาจเป็นประโยชน์สำหรับนักวิจัยที่สร้างระบบบทสนทนาที่สั่งงานด้วยเสียง แพลตฟอร์มการถอดเสียง และศูนย์บริการทางโทรศัพท์อัตโนมัติ แตกต่างจากโครงการที่มีอยู่ก่อนหน้านี้ แบบจำลองที่เผยแพร่ไม่ได้จำกัดอยู่เพียงการจดจำภาษาอังกฤษ และครอบคลุมภาษา สำเนียง และรูปแบบคำพูดที่หลากหลาย

เราขอเตือนคุณว่าโครงการ Common Voice มีวัตถุประสงค์เพื่อจัดงานร่วมกันเพื่อรวบรวมฐานข้อมูลรูปแบบเสียงที่คำนึงถึงความหลากหลายของเสียงและรูปแบบการพูด ผู้ใช้จะได้รับเชิญให้ใช้วลีเสียงที่แสดงบนหน้าจอหรือประเมินคุณภาพของข้อมูลที่เพิ่มโดยผู้ใช้รายอื่น ฐานข้อมูลที่สะสมพร้อมบันทึกการออกเสียงวลีทั่วไปของคำพูดของมนุษย์สามารถใช้งานได้โดยไม่มีข้อจำกัดในระบบการเรียนรู้ของเครื่องและในโครงการวิจัย

ตามที่ผู้เขียนไลบรารีการรู้จำคำพูดต่อเนื่อง Vosk ข้อเสียของชุด Common Voice คือความเป็นด้านเดียวของวัสดุเสียง (ความเด่นของผู้ชายอายุ 20-30 ปีและการขาดเนื้อหาที่มีเสียงของผู้หญิง เด็กและผู้สูงอายุ) การขาดความแปรปรวนในพจนานุกรม (การซ้ำวลีเดียวกัน) และการกระจายการบันทึกในรูปแบบ MP3 ที่บิดเบือน

ที่มา: opennet.ru

เพิ่มความคิดเห็น