פרויקט OpenAI, המפתח פרויקטים זמינים לציבור בתחום הבינה המלאכותית, פרסם פיתוחים הקשורים למערכת זיהוי הדיבור Whisper. נטען כי עבור דיבור באנגלית, המערכת מספקת רמות אמינות ודיוק של זיהוי אוטומטי הקרובות לזיהוי אנושי. קוד יישום הייחוס המבוסס על מסגרת PyTorch ומערכת של מודלים שכבר אומנו מוכנים לשימוש פתוחים. הקוד פתוח תחת רישיון MIT.
המודל אומן באמצעות 680 שעות של נתוני דיבור שנאספו ממספר אוספים המכסים שפות ותחומים שונים. כשליש מנתוני הדיבור ששימשו באימון הם משפות שאינן אנגלית. המערכת המוצעת מטפלת נכון במצבים כגון הגייה מוטעמת, נוכחות רעשי רקע ושימוש בז'רגון טכני. בנוסף לתעתוק דיבור לטקסט, המערכת יכולה גם לתרגם דיבור מכל שפה לאנגלית ולזהות את הופעת הדיבור בזרם האודיו.
המודלים נוצרים בשני ייצוגים: מודל לשפה האנגלית ומודל רב-לשוני התומך ברוסית, אוקראינית ובלארוסית. כל ייצוג מחולק ל-5 גרסאות הנבדלות זו מזו בגודלן ובמספר הפרמטרים המכוסים על ידי המודל. ככל שהגודל גדול יותר, כך הדיוק ואיכות הזיהוי גבוהים יותר, אך גם דרישות גבוהות יותר לגודל זיכרון הווידאו של ה-GPU וביצועים נמוכים יותר. לדוגמה, הגרסה המינימלית כוללת 39 מיליון פרמטרים ודורשת 1 ג'יגה-בייט של זיכרון וידאו, והמקסימלית כוללת 1550 מיליון פרמטרים ודורשת 10 ג'יגה-בייט של זיכרון וידאו. הגרסה המינימלית מהירה פי 32 מהמקסימלית.

המערכת משתמשת בארכיטקטורת רשת הנוירונים Transformer, הכוללת מקודד ומפענח אינטראקטיביים. האודיו מפורק לקטעים בני 30 שניות, אשר מומרים לספקטרוגרם log-Mel ומועברים למקודד. הפלט של המקודד נשלח למפענח, אשר חוזה ייצוג טקסט מעורבב עם טוקנים מיוחדים המאפשרים למודל משותף אחד לפתור בעיות כגון זיהוי שפה, התחשבות בכרונולוגיה של הגיית ביטויים, תעתוק דיבור בשפות שונות ותרגום לאנגלית.
מקור: OpenNet.ru
