ΠžΡ‚ΠΊΡ€Ρ‹Ρ‚ ΠΊΠΎΠ΄ систСмы распознавания ΠΈ ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄Π° Ρ€Π΅Ρ‡ΠΈ Whisper

ΠŸΡ€ΠΎΠ΅ΠΊΡ‚ OpenAI, Π·Π°Π½ΠΈΠΌΠ°ΡŽΡ‰ΠΈΠΉΡΡ Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ΠΌ общСдоступных ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΠ² Π² области искусствСнного ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π°, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» Π½Π°Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ, связанныС с систСмой распознавания Ρ€Π΅Ρ‡ΠΈ Whisper. УтвСрТдаСтся, Ρ‡Ρ‚ΠΎ для Ρ€Π΅Ρ‡ΠΈ Π½Π° английском языкС систСма обСспСчиваСт ΡƒΡ€ΠΎΠ²Π½ΠΈ надёТности ΠΈ точности автоматичСского распознавания Π±Π»ΠΈΠ·ΠΊΠΈΠ΅ ΠΊ Ρ€Π°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡŽ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ. ΠžΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ ΠΊΠΎΠ΄ эталонной Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π½Π° Π±Π°Π·Π΅ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ° PyTorch ΠΈ Π½Π°Π±ΠΎΡ€ ΡƒΠΆΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, Π³ΠΎΡ‚ΠΎΠ²Ρ‹Ρ… для использования. Код ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ ΠΏΠΎΠ΄ Π»ΠΈΡ†Π΅Π½Π·ΠΈΠ΅ΠΉ MIT.

Для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Ρ‹ 680 тысяч часов Ρ€Π΅Ρ‡Π΅Π²Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, собранных ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΉ, ΠΎΡ…Π²Π°Ρ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΡ… Ρ€Π°Π·Π½Ρ‹Π΅ языки ΠΈ тСматичСскиС области. Около 1/3 задСйствованных ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Ρ€Π΅Ρ‡Π΅Π²Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… приходятся Π½Π° языки, ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ ΠΎΡ‚ английского. ΠŸΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π½Π°Ρ систСма ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½ΠΎ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ Ρ‚Π°ΠΊΠΈΠ΅ ситуации, ΠΊΠ°ΠΊ ΠΏΡ€ΠΎΠΈΠ·Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ с Π°ΠΊΡ†Π΅Π½Ρ‚ΠΎΠΌ, Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ Ρ„ΠΎΠ½ΠΎΠ²Ρ‹Ρ… ΡˆΡƒΠΌΠΎΠ² ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ тСхничСского ΠΆΠ°Ρ€Π³ΠΎΠ½Π°. ΠšΡ€ΠΎΠΌΠ΅ транскрипции Ρ€Π΅Ρ‡ΠΈ Π² тСкст, систСма Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ΠΈΡ‚ΡŒ Ρ€Π΅Ρ‡ΡŒ с ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎΠ³ΠΎ языка Π½Π° английский язык ΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡ‚ΡŒ появлСниС Ρ€Π΅Ρ‡ΠΈ Π² Π·Π²ΡƒΠΊΠΎΠ²ΠΎΠΌ ΠΏΠΎΡ‚ΠΎΠΊΠ΅.

МодСли сформированы Π² Π΄Π²ΡƒΡ… прСдставлСниях: модСль для английского языка ΠΈ многоязычная модСль, ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°ΡŽΡ‰Π°Ρ Π² Ρ‚ΠΎΠΌ числС русский, украинский ΠΈ бСлорусский языки. Π’ свою ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ, ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ прСдставлСниС дСлится Π½Π° 5 Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ², ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ ΠΈ числом ΠΎΡ…Π²Π°Ρ‡Π΅Π½Π½Ρ‹Ρ… Π² ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². Π§Π΅ΠΌ большС Ρ€Π°Π·ΠΌΠ΅Ρ€, Ρ‚Π΅ΠΌ большС Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ качСство распознаваниС, Π½ΠΎ ΠΈ Π²Ρ‹ΡˆΠ΅ трСбования ΠΊ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρƒ видСопамяти GPU ΠΈ Π½ΠΈΠΆΠ΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ. НапримСр, ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ 39 ΠΌΠ»Π½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ 1 Π“Π‘ видСопамяти, Π° ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ 1550 ΠΌΠ»Π½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ 10 Π“Π‘ видСопамяти. ΠœΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ быстрСС максимального Π² 32 Ρ€Π°Π·Π°.

ΠžΡ‚ΠΊΡ€Ρ‹Ρ‚ ΠΊΠΎΠ΄ систСмы распознавания ΠΈ ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄Π° Ρ€Π΅Ρ‡ΠΈ Whisper

Π’ систСмС ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти «Transformer», Π²ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‰Π°Ρ Π²Π·Π°ΠΈΠΌΠΎΠ΄Π΅ΠΉΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ Π΄Ρ€ΡƒΠ³ с Π΄Ρ€ΡƒΠ³ΠΎΠΌ ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Ρ‰ΠΈΠΊ ΠΈ Π΄Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Ρ‰ΠΈΠΊ. Π—Π²ΡƒΠΊ разбиваСтся Π½Π° 30-сСкундныС ΠΎΡ‚Ρ€Ρ‹Π²ΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‚ΡΡ Π² log-Mel-спСктограмму ΠΈ ΠΏΠ΅Ρ€Π΅Π΄Π°ΡŽΡ‚ΡΡ ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Ρ‰ΠΈΠΊΡƒ. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Ρ‰ΠΈΠΊΠ° направляСтся Π² Π΄Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Ρ‰ΠΈΠΊ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ прСдсказываСт тСкстовоС прСдставлСниС, смСшанноС со ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ Ρ‚ΠΎΠΊΠ΅Π½Π°ΠΌΠΈ, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠΌΠΈ Π² ΠΎΠ΄Π½ΠΎΠΉ ΠΎΠ±Ρ‰Π΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Ρ‚Π°ΠΊΠΈΠ΅ Π·Π°Π΄Π°Ρ‡ΠΈ, ΠΊΠ°ΠΊ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ языка, ΡƒΡ‡Ρ‘Ρ‚ Ρ…Ρ€ΠΎΠ½ΠΎΠ»ΠΎΠ³ΠΈΠΈ ΠΏΡ€ΠΎΠΈΠ·Π½ΠΎΡˆΠ΅Π½ΠΈΡ Ρ„Ρ€Π°Π·, транскрипция Ρ€Π΅Ρ‡ΠΈ Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… языках ΠΈ ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ Π½Π° английский язык.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ: opennet.ru