🥇Mozilla เปิดตัวเครื่องมือรู้จำเสียง DeepSpeech 0.6

แนะนำ เปิดตัวเอ็นจิ้นการรู้จำเสียงที่พัฒนาโดย Mozilla ดีพสปีช 0.6ซึ่งใช้สถาปัตยกรรมการรู้จำเสียงในชื่อเดียวกัน เสนอ โดยนักวิจัยจากไป่ตู้ การใช้งานเขียนด้วยภาษา Python โดยใช้แพลตฟอร์มการเรียนรู้ของเครื่อง TensorFlow และ จัดจำหน่ายโดย ภายใต้ใบอนุญาต MPL 2.0 ฟรี รองรับการทำงานบน Linux, Android, macOS และ Windows ประสิทธิภาพเพียงพอที่จะใช้เอ็นจิ้นบนบอร์ด LePotato, Raspberry Pi 3 และ Raspberry Pi 4

รวมอยู่ในชุดด้วย ที่นำเสนอ โมเดลที่ผ่านการฝึกอบรม ตัวอย่าง ไฟล์เสียงและเครื่องมือการจดจำจากบรรทัดคำสั่ง เพื่อรวมฟังก์ชันการรู้จำเสียงเข้ากับโปรแกรมของคุณ จึงมีการเสนอโมดูลที่พร้อมใช้งานสำหรับ Python, NodeJS, C++ และ .NET (นักพัฒนาบุคคลที่สามได้เตรียมโมดูลแยกต่างหากสำหรับ สนิม и Go- แบบจำลองที่เสร็จสมบูรณ์นั้นจัดทำขึ้นสำหรับภาษาอังกฤษเท่านั้น แต่สำหรับภาษาอื่น ๆ โดย ที่แนบมา คำแนะนำ คุณสามารถฝึกระบบได้ด้วยตัวเองโดยใช้ ข้อมูลเสียงรวบรวมโดยโครงการ Common Voice

DeepSpeech นั้นง่ายกว่าระบบแบบเดิมมากและในขณะเดียวกันก็ให้การจดจำคุณภาพสูงกว่าเมื่อมีเสียงรบกวนจากภายนอก โดยข้ามโมเดลเสียงแบบดั้งเดิมและแนวคิดของหน่วยเสียง แทนที่จะใช้ระบบการเรียนรู้ของเครื่องบนเครือข่ายประสาทที่ได้รับการปรับปรุงประสิทธิภาพขั้นสูง ซึ่งขจัดความจำเป็นในการพัฒนาส่วนประกอบที่แยกจากกันเพื่อสร้างแบบจำลองความผิดปกติต่างๆ เช่น คุณลักษณะเสียงรบกวน เสียงก้อง และคำพูด

ข้อเสียของแนวทางนี้คือเพื่อให้ได้การจดจำและการฝึกอบรมโครงข่ายประสาทเทียมคุณภาพสูง เครื่องมือ DeepSpeech ต้องใช้ข้อมูลที่แตกต่างกันจำนวนมาก ซึ่งกำหนดในสภาวะจริงด้วยเสียงที่แตกต่างกันและเมื่อมีเสียงรบกวนตามธรรมชาติ
โครงการที่สร้างใน Mozilla รวบรวมข้อมูลดังกล่าว เสียงสามัญโดยจัดเตรียมชุดข้อมูลที่ตรวจสอบแล้วด้วยเวลา 780 ชั่วโมง ภาษาอังกฤษ, 325 ในภาษาเยอรมัน, 173 ในภาษาฝรั่งเศส และ 27 ชั่วโมงในภาษารัสเซีย

เป้าหมายสูงสุดของโครงการ Common Voice คือการสะสมการบันทึกการออกเสียงต่างๆ ของวลีทั่วไปของคำพูดของมนุษย์เป็นเวลา 10 ชั่วโมง ซึ่งจะช่วยให้เกิดข้อผิดพลาดในการจดจำในระดับที่ยอมรับได้ ในรูปแบบปัจจุบัน ผู้เข้าร่วมโครงการได้กำหนดเวลาไว้แล้วทั้งหมด 4.3 พันชั่วโมง โดยมีการทดสอบไปแล้ว 3.5 พันชั่วโมง เมื่อฝึกโมเดลภาษาอังกฤษขั้นสุดท้ายสำหรับ DeepSpeech มีการใช้ชั่วโมงการพูด 3816 ชั่วโมง นอกเหนือจาก Common Voice ที่ครอบคลุมข้อมูลจากโครงการ LibriSpeech, Fisher และ Switchboard และยังรวมถึงการบันทึกรายการวิทยุที่ถอดเสียงประมาณ 1700 ชั่วโมงด้วย

เมื่อใช้โมเดลภาษาอังกฤษสำเร็จรูปที่เสนอให้ดาวน์โหลด อัตราข้อผิดพลาดในการรู้จำใน DeepSpeech คือ 7.5% เมื่อประเมินด้วยชุดทดสอบ LibriSpeech- สำหรับการเปรียบเทียบ อัตราความผิดพลาดในการรับรู้ของมนุษย์ โดยประมาณ ที่ 5.83%

DeepSpeech ประกอบด้วยสองระบบย่อย - โมเดลเสียงและตัวถอดรหัส โมเดลอะคูสติกใช้วิธีการเรียนรู้ของเครื่องเชิงลึกเพื่อคำนวณความเป็นไปได้ที่อักขระบางตัวจะปรากฏในเสียงอินพุต ตัวถอดรหัสใช้อัลกอริธึมการค้นหารังสีเพื่อแปลงข้อมูลความน่าจะเป็นของอักขระให้เป็นการแสดงข้อความ

หลัก นวัตกรรม DeepSpeech 0.6 (สาขา 0.6 เข้ากันไม่ได้กับรุ่นก่อนหน้า และต้องมีการอัปเดตโค้ดและโมเดล):

มีการเสนอตัวถอดรหัสสตรีมมิ่งใหม่ที่ให้การตอบสนองที่สูงขึ้นและไม่ขึ้นอยู่กับขนาดของข้อมูลเสียงที่ประมวลผล ด้วยเหตุนี้ DeepSpeech เวอร์ชันใหม่จึงสามารถลดเวลาแฝงในการจดจำลงเหลือ 260 มิลลิวินาที ซึ่งเร็วกว่าเดิมถึง 73% และช่วยให้สามารถใช้ DeepSpeech ในโซลูชันการรู้จำเสียงได้ทันที
มีการเปลี่ยนแปลงกับ API และได้ดำเนินการเพื่อรวมชื่อฟังก์ชันเข้าด้วยกัน มีการเพิ่มฟังก์ชันเพื่อรับข้อมูลเมตาเพิ่มเติมเกี่ยวกับการซิงโครไนซ์ ซึ่งช่วยให้คุณไม่เพียงแต่รับการแสดงข้อความเป็นเอาต์พุตเท่านั้น แต่ยังติดตามการเชื่อมโยงอักขระและประโยคแต่ละตัวกับตำแหน่งในสตรีมเสียงอีกด้วย
เพิ่มการรองรับการใช้ไลบรารีลงในชุดเครื่องมือสำหรับโมดูลการฝึกอบรมแล้ว CuDNN เพื่อเพิ่มประสิทธิภาพการทำงานกับโครงข่ายประสาทเทียม (RNN) ซึ่งทำให้สามารถเพิ่มประสิทธิภาพการฝึกโมเดลได้อย่างมีนัยสำคัญ (ประมาณสองเท่า) แต่จำเป็นต้องมีการเปลี่ยนแปลงโค้ดที่ละเมิดความเข้ากันได้กับโมเดลที่เตรียมไว้ก่อนหน้านี้
ข้อกำหนดเวอร์ชันขั้นต่ำของ TensorFlow ได้รับการยกระดับจาก 1.13.1 เป็น 1.14.0 เพิ่มการรองรับสำหรับ TensorFlow Lite รุ่นไลท์เวท ซึ่งลดขนาดของแพ็คเกจ DeepSpeech จาก 98 MB เป็น 3.7 MB สำหรับการใช้งานบนอุปกรณ์ฝังตัวและอุปกรณ์เคลื่อนที่ ขนาดของไฟล์ที่แพ็กกับโมเดลก็ลดลงจาก 188 MB เป็น 47 MB (วิธีเชิงปริมาณใช้สำหรับการบีบอัดหลังจากโมเดลได้รับการฝึกฝนแล้ว)
โมเดลภาษาได้รับการแปลเป็นรูปแบบโครงสร้างข้อมูลอื่นที่อนุญาตให้แมปไฟล์ลงในหน่วยความจำเมื่อโหลด การสนับสนุนรูปแบบเก่าถูกยกเลิกแล้ว
โหมดการโหลดไฟล์ด้วยโมเดลภาษามีการเปลี่ยนแปลง ซึ่งทำให้การใช้หน่วยความจำลดลง และลดความล่าช้าเมื่อประมวลผลคำขอแรกหลังจากสร้างโมเดล ในระหว่างการทำงาน ตอนนี้ DeepSpeech ใช้หน่วยความจำน้อยลง 22 เท่า และเริ่มเร็วขึ้น 500 เท่า
คำที่หายากถูกกรองในรูปแบบภาษา จำนวนคำทั้งหมดลดลงเหลือ 500 คำยอดนิยมที่พบในข้อความที่ใช้ในการฝึกโมเดล การทำความสะอาดทำให้สามารถลดขนาดของโมเดลภาษาจาก 1800MB เป็น 900MB โดยแทบไม่มีผลกระทบต่ออัตราข้อผิดพลาดในการจดจำ
เพิ่มการรองรับต่างๆ ช่างเทคนิค การสร้างรูปแบบเพิ่มเติม (การเสริม) ของข้อมูลเสียงที่ใช้ในการฝึกอบรม (เช่น การเพิ่มการบิดเบือนหรือเสียงรบกวนให้กับชุดตัวเลือก)
เพิ่มไลบรารีที่มีการผูกข้อมูลสำหรับการทำงานร่วมกับแอปพลิเคชันที่ใช้แพลตฟอร์ม .NET
เอกสารนี้ได้รับการแก้ไขใหม่และรวบรวมไว้ในเว็บไซต์แยกต่างหากแล้ว deepspeech.readthedocs.io.

ที่มา: opennet.ru

Mozilla เปิดตัวเครื่องมือรู้จำเสียง DeepSpeech 0.6

เพิ่มความคิดเห็น ยกเลิกการตอบ