รหัสสำหรับระบบรู้จำคำพูดและการแปล Whisper ได้รับการเปิดแล้ว

โครงการ OpenAI ซึ่งพัฒนาโครงการสาธารณะในด้านปัญญาประดิษฐ์ ได้เผยแพร่การพัฒนาที่เกี่ยวข้องกับระบบรู้จำเสียง Whisper มีการอ้างว่าสำหรับคำพูดในภาษาอังกฤษ ระบบจะให้ระดับความน่าเชื่อถือและความแม่นยำของการจดจำอัตโนมัติที่ใกล้เคียงกับการจดจำของมนุษย์ รหัสสำหรับการใช้งานอ้างอิงตามเฟรมเวิร์ก PyTorch และชุดโมเดลที่ผ่านการฝึกอบรมแล้วและพร้อมใช้งานได้ถูกเปิดแล้ว รหัสนี้เปิดภายใต้ใบอนุญาต MIT

ในการฝึกโมเดลนั้น มีการใช้ข้อมูลคำพูด 680 ชั่วโมง ซึ่งรวบรวมจากคอลเลกชันต่างๆ ที่ครอบคลุมภาษาและสาขาวิชาต่างๆ ประมาณ 1/3 ของข้อมูลคำพูดที่เกี่ยวข้องกับการฝึกอบรมเป็นภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ระบบที่นำเสนอสามารถจัดการกับสถานการณ์ต่างๆ ได้อย่างถูกต้อง เช่น การออกเสียงเน้นเสียง เสียงพื้นหลัง และการใช้ศัพท์เฉพาะทางเทคนิค นอกเหนือจากการถอดเสียงคำพูดเป็นข้อความแล้ว ระบบยังสามารถแปลคำพูดจากภาษาใดๆ เป็นภาษาอังกฤษ และตรวจจับลักษณะที่ปรากฏของคำพูดในสตรีมเสียงได้อีกด้วย

แบบจำลองนี้สร้างขึ้นในสองรูปแบบ: แบบจำลองสำหรับภาษาอังกฤษและแบบจำลองหลายภาษา ซึ่งรองรับภาษารัสเซีย ยูเครน และเบลารุสด้วย ในทางกลับกัน การแสดงแต่ละรายการจะแบ่งออกเป็น 5 ตัวเลือก ซึ่งมีขนาดและจำนวนพารามิเตอร์ที่แตกต่างกันในแบบจำลอง ยิ่งมีขนาดใหญ่เท่าใด ความแม่นยำและคุณภาพของการจดจำก็จะยิ่งมากขึ้นเท่านั้น แต่ยังต้องมีข้อกำหนดสำหรับขนาดของหน่วยความจำวิดีโอ GPU และประสิทธิภาพการทำงานก็จะยิ่งสูงขึ้นด้วย ตัวอย่างเช่น ตัวเลือกขั้นต่ำประกอบด้วย 39 ล้านพารามิเตอร์และต้องใช้หน่วยความจำวิดีโอ 1 GB และตัวเลือกสูงสุดประกอบด้วย 1550 ล้านพารามิเตอร์และต้องใช้หน่วยความจำวิดีโอ 10 GB ตัวเลือกขั้นต่ำเร็วกว่าสูงสุด 32 เท่า

รหัสสำหรับระบบรู้จำคำพูดและการแปล Whisper ได้รับการเปิดแล้ว

ระบบใช้สถาปัตยกรรมเครือข่ายประสาทเทียมของ Transformer ซึ่งรวมถึงตัวเข้ารหัสและตัวถอดรหัสที่โต้ตอบซึ่งกันและกัน เสียงจะถูกแบ่งออกเป็นช่วง 30 วินาที ซึ่งจะถูกแปลงเป็นสเปกโตรแกรม log-Mel และส่งไปยังตัวเข้ารหัส ผลลัพธ์ของตัวเข้ารหัสจะถูกส่งไปยังตัวถอดรหัส ซึ่งจะทำนายการแสดงข้อความผสมกับโทเค็นพิเศษที่ช่วยให้ในแบบจำลองทั่วไปหนึ่งเดียว สามารถแก้ไขปัญหาต่างๆ เช่น การตรวจจับภาษา การบัญชีสำหรับลำดับเหตุการณ์ของการออกเสียงวลี การถอดเสียงคำพูดใน ภาษาต่างๆ และการแปลเป็นภาษาอังกฤษ

ที่มา: opennet.ru

เพิ่มความคิดเห็น