Whisper яриа таних, орчуулах системийн кодыг нээлээ

Хиймэл оюун ухааны чиглэлээр олон нийтийн төслүүдийг боловсруулдаг OpenAI төсөл нь Whisper яриа таних системтэй холбоотой бүтээн байгуулалтуудыг нийтэлжээ. Англи хэл дээрх ярианы хувьд систем нь хүнийг танихтай ойролцоо автомат таних найдвартай байдал, нарийвчлалын түвшинг хангадаг гэж мэдэгджээ. PyTorch фреймворк дээр суурилсан лавлагааны хэрэгжилтийн код болон аль хэдийн бэлтгэгдсэн, ашиглахад бэлэн загваруудын багц нээгдэв. Код нь MIT лицензийн дагуу нээлттэй байна.

Загварыг сургахын тулд янз бүрийн хэл, сэдвийг хамарсан хэд хэдэн цуглуулгаас цуглуулсан 680 мянган цагийн ярианы өгөгдлийг ашигласан. Сургалтанд хамрагдсан ярианы мэдээллийн 1/3 нь англи хэлнээс бусад хэл дээр байдаг. Санал болгож буй систем нь өргөлттэй дуудлага, арын чимээ, техникийн үг хэллэг ашиглах зэрэг нөхцөл байдлыг зөв зохицуулдаг. Уг систем нь яриаг текст болгон хөрвүүлэхээс гадна аль ч хэлээс англи хэл рүү яриаг хөрвүүлж, аудио урсгал дахь ярианы харагдах байдлыг илрүүлэх боломжтой.

Загварууд нь англи хэлний загвар болон орос, украин, белорус хэлийг дэмждэг олон хэлний загвар гэсэн хоёр хэлбэрээр хийгдсэн. Хариуд нь дүрслэл бүр нь загварт хамрагдсан параметрийн хэмжээ, тоогоор ялгаатай 5 хувилбарт хуваагддаг. Хэмжээ нь том байх тусам таних нарийвчлал, чанар өндөр болохоос гадна GPU-ийн видео санах ойд тавигдах шаардлага өндөр байх ба гүйцэтгэл бага байх болно. Жишээлбэл, хамгийн бага сонголт нь 39 сая параметрийг багтаасан бөгөөд 1 ГБ видео санах ой, дээд тал нь 1550 сая параметрийг багтаасан бөгөөд 10 ГБ видео санах ой шаарддаг. Хамгийн бага сонголт нь дээд хэмжээнээс 32 дахин хурдан байна.

Whisper яриа таних, орчуулах системийн кодыг нээлээ

Уг систем нь хоорондоо харилцан үйлчлэлцдэг кодлогч ба декодерыг агуулсан Transformer мэдрэлийн сүлжээний архитектурыг ашигладаг. Аудио нь 30 секундын хэсгүүдэд хуваагдаж, тэдгээрийг лог-Мел спектрограмм болгон хувиргаж, кодлогч руу илгээдэг. Кодлогчийн гаралтыг декодер руу илгээдэг бөгөөд энэ нь нэг ерөнхий загварт хэл илрүүлэх, хэллэгийн дуудлагын он дарааллыг бүртгэх, хэллэгийг хуулбарлах зэрэг асуудлыг шийдвэрлэх боломжийг олгодог тусгай жетонуудтай холилдсон текст дүрслэлийг урьдчилан таамаглах болно. өөр өөр хэл, англи хэл рүү орчуулах.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх