מודל ChatTTS AI לסינתזת דיבור פורסם

פרויקט ChatTTS פרסם מודל וערכת כלים קשורה ללימוד מכונה לסינתזת דיבור רגשית. פרויקט ChatTTS מותאם במיוחד לשימוש במערכות שיחה, כגון עוזרים אינטראקטיביים, ומטרתו לשחזר את המאפיינים של תקשורת רגשית טבעית. אינטראקציה עם מספר דוברים ובניית דיאלוג אינטראקטיבי נתמכות. אלמנטים פרוזודיים כמו צחוק, הפסקות וקריעות ביניים נבדקים בצורה נכונה ומשוכפלים במהלך הסינתזה.

בהכשרת הדגם נעשה שימוש בכ-40 אלף שעות של הקלטות דיבור (בגרסה הלא פומבית של הדגם - 100 אלף שעות). לדברי המפתחים, יכולות יצירת האינטונציה של הדגם עדיפות על כל דגמי סינתזת דיבור פתוחים שהיו זמינים בעבר. כדי לשלוט ברגשות במהלך הסינתזה, רק החלפת סמלים נתמכת כרגע, למשל, "[צחוק]" לצחוק. כדי ליצור הקלטה של ​​30 שניות, נדרש GPU עם 4 ג'יגה-בייט של זיכרון. ב-NVIDIA GeForce RTX 4090D GPU, קצב היצירה הוא כ-7 אסימונים סמנטיים לשנייה. נתמך בסינתזה של קולות נקבה וזכר באנגלית ובסינית (לשפה הרוסית ניתן להמליץ ​​על מסגרת TTS ודגם XTTS-v2, אשר בנוסף לסינתזה תומכים בשיבוט קול מהקלטת דיבור קצר, כולל לסינתזה בשפה אחרת ).

מודל ChatTTS מתפרסם תחת רישיון CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0), המאפשר הפצה חופשית עם ייחוס, אך אוסר על יצירת יצירות נגזרות ושימוש בפרויקטים מסחריים. בנוסף, כדי להגן מפני שימוש בדגם לביצוע מעשי הונאה ופשעים, בעת הכשרת הדגם נעשה שימוש בהחלפת רעש בתדר גבוה ונעשה שימוש ברמת דחיסת השמע המקסימלית בפורמט MP3.

מקור: OpenNet.ru

הוספת תגובה