รวมอยู่ในชุดด้วย
DeepSpeech นั้นง่ายกว่าระบบแบบเดิมมากและในขณะเดียวกันก็ให้การจดจำคุณภาพสูงกว่าเมื่อมีเสียงรบกวนจากภายนอก โดยข้ามโมเดลเสียงแบบดั้งเดิมและแนวคิดของหน่วยเสียง แทนที่จะใช้ระบบการเรียนรู้ของเครื่องบนเครือข่ายประสาทที่ได้รับการปรับปรุงประสิทธิภาพขั้นสูง ซึ่งขจัดความจำเป็นในการพัฒนาส่วนประกอบที่แยกจากกันเพื่อสร้างแบบจำลองความผิดปกติต่างๆ เช่น คุณลักษณะเสียงรบกวน เสียงก้อง และคำพูด
ข้อเสียของแนวทางนี้คือเพื่อให้ได้การจดจำและการฝึกอบรมโครงข่ายประสาทเทียมคุณภาพสูง เครื่องมือ DeepSpeech ต้องใช้ข้อมูลที่แตกต่างกันจำนวนมาก ซึ่งกำหนดในสภาวะจริงด้วยเสียงที่แตกต่างกันและเมื่อมีเสียงรบกวนตามธรรมชาติ
โครงการที่สร้างใน Mozilla รวบรวมข้อมูลดังกล่าว
เป้าหมายสูงสุดของโครงการ Common Voice คือการสะสมการบันทึกการออกเสียงต่างๆ ของวลีทั่วไปของคำพูดของมนุษย์เป็นเวลา 10 ชั่วโมง ซึ่งจะช่วยให้เกิดข้อผิดพลาดในการจดจำในระดับที่ยอมรับได้ ในรูปแบบปัจจุบัน ผู้เข้าร่วมโครงการได้กำหนดเวลาไว้แล้วทั้งหมด 4.3 พันชั่วโมง โดยมีการทดสอบไปแล้ว 3.5 พันชั่วโมง เมื่อฝึกโมเดลภาษาอังกฤษขั้นสุดท้ายสำหรับ DeepSpeech มีการใช้ชั่วโมงการพูด 3816 ชั่วโมง นอกเหนือจาก Common Voice ที่ครอบคลุมข้อมูลจากโครงการ LibriSpeech, Fisher และ Switchboard และยังรวมถึงการบันทึกรายการวิทยุที่ถอดเสียงประมาณ 1700 ชั่วโมงด้วย
เมื่อใช้โมเดลภาษาอังกฤษสำเร็จรูปที่เสนอให้ดาวน์โหลด อัตราข้อผิดพลาดในการรู้จำใน DeepSpeech คือ 7.5% เมื่อประเมินด้วยชุดทดสอบ
DeepSpeech ประกอบด้วยสองระบบย่อย - โมเดลเสียงและตัวถอดรหัส โมเดลอะคูสติกใช้วิธีการเรียนรู้ของเครื่องเชิงลึกเพื่อคำนวณความเป็นไปได้ที่อักขระบางตัวจะปรากฏในเสียงอินพุต ตัวถอดรหัสใช้อัลกอริธึมการค้นหารังสีเพื่อแปลงข้อมูลความน่าจะเป็นของอักขระให้เป็นการแสดงข้อความ
หลัก
- มีการเสนอตัวถอดรหัสสตรีมมิ่งใหม่ที่ให้การตอบสนองที่สูงขึ้นและไม่ขึ้นอยู่กับขนาดของข้อมูลเสียงที่ประมวลผล ด้วยเหตุนี้ DeepSpeech เวอร์ชันใหม่จึงสามารถลดเวลาแฝงในการจดจำลงเหลือ 260 มิลลิวินาที ซึ่งเร็วกว่าเดิมถึง 73% และช่วยให้สามารถใช้ DeepSpeech ในโซลูชันการรู้จำเสียงได้ทันที
- มีการเปลี่ยนแปลงกับ API และได้ดำเนินการเพื่อรวมชื่อฟังก์ชันเข้าด้วยกัน มีการเพิ่มฟังก์ชันเพื่อรับข้อมูลเมตาเพิ่มเติมเกี่ยวกับการซิงโครไนซ์ ซึ่งช่วยให้คุณไม่เพียงแต่รับการแสดงข้อความเป็นเอาต์พุตเท่านั้น แต่ยังติดตามการเชื่อมโยงอักขระและประโยคแต่ละตัวกับตำแหน่งในสตรีมเสียงอีกด้วย
- เพิ่มการรองรับการใช้ไลบรารีลงในชุดเครื่องมือสำหรับโมดูลการฝึกอบรมแล้ว
CuDNN เพื่อเพิ่มประสิทธิภาพการทำงานกับโครงข่ายประสาทเทียม (RNN) ซึ่งทำให้สามารถเพิ่มประสิทธิภาพการฝึกโมเดลได้อย่างมีนัยสำคัญ (ประมาณสองเท่า) แต่จำเป็นต้องมีการเปลี่ยนแปลงโค้ดที่ละเมิดความเข้ากันได้กับโมเดลที่เตรียมไว้ก่อนหน้านี้ - ข้อกำหนดเวอร์ชันขั้นต่ำของ TensorFlow ได้รับการยกระดับจาก 1.13.1 เป็น 1.14.0 เพิ่มการรองรับสำหรับ TensorFlow Lite รุ่นไลท์เวท ซึ่งลดขนาดของแพ็คเกจ DeepSpeech จาก 98 MB เป็น 3.7 MB สำหรับการใช้งานบนอุปกรณ์ฝังตัวและอุปกรณ์เคลื่อนที่ ขนาดของไฟล์ที่แพ็กกับโมเดลก็ลดลงจาก 188 MB เป็น 47 MB (วิธีเชิงปริมาณใช้สำหรับการบีบอัดหลังจากโมเดลได้รับการฝึกฝนแล้ว)
- โมเดลภาษาได้รับการแปลเป็นรูปแบบโครงสร้างข้อมูลอื่นที่อนุญาตให้แมปไฟล์ลงในหน่วยความจำเมื่อโหลด การสนับสนุนรูปแบบเก่าถูกยกเลิกแล้ว
- โหมดการโหลดไฟล์ด้วยโมเดลภาษามีการเปลี่ยนแปลง ซึ่งทำให้การใช้หน่วยความจำลดลง และลดความล่าช้าเมื่อประมวลผลคำขอแรกหลังจากสร้างโมเดล ในระหว่างการทำงาน ตอนนี้ DeepSpeech ใช้หน่วยความจำน้อยลง 22 เท่า และเริ่มเร็วขึ้น 500 เท่า
- คำที่หายากถูกกรองในรูปแบบภาษา จำนวนคำทั้งหมดลดลงเหลือ 500 คำยอดนิยมที่พบในข้อความที่ใช้ในการฝึกโมเดล การทำความสะอาดทำให้สามารถลดขนาดของโมเดลภาษาจาก 1800MB เป็น 900MB โดยแทบไม่มีผลกระทบต่ออัตราข้อผิดพลาดในการจดจำ
- เพิ่มการรองรับต่างๆ
ช่างเทคนิค การสร้างรูปแบบเพิ่มเติม (การเสริม) ของข้อมูลเสียงที่ใช้ในการฝึกอบรม (เช่น การเพิ่มการบิดเบือนหรือเสียงรบกวนให้กับชุดตัวเลือก) - เพิ่มไลบรารีที่มีการผูกข้อมูลสำหรับการทำงานร่วมกับแอปพลิเคชันที่ใช้แพลตฟอร์ม .NET
- เอกสารนี้ได้รับการแก้ไขใหม่และรวบรวมไว้ในเว็บไซต์แยกต่างหากแล้ว
deepspeech.readthedocs.io .
ที่มา: opennet.ru