An buɗe lambar don fahimtar magana da tsarin fassarar Whisper

Aikin OpenAI, wanda ke haɓaka ayyukan jama'a a fagen fasaha na wucin gadi, ya buga abubuwan da suka faru da suka shafi tsarin gane magana ta Whisper. An yi iƙirarin cewa don magana a cikin Ingilishi tsarin yana ba da matakan aminci da daidaiton ganewa ta atomatik kusa da sanin ɗan adam. An buɗe lambar don aiwatar da tunani dangane da tsarin PyTorch da jerin samfuran da aka riga aka horar, waɗanda aka shirya don amfani, an buɗe su. An buɗe lambar a ƙarƙashin lasisin MIT.

Don horar da samfurin, an yi amfani da bayanan magana na sa'o'i 680, waɗanda aka tattara daga tarin tarin da ke rufe harsuna daban-daban da wuraren batutuwa. Kimanin 1/3 na bayanan magana da ke cikin horo yana cikin harsuna ban da Ingilishi. Tsarin da aka tsara yana tafiyar da yanayi daidai kamar ƙarar magana, amo na baya, da kuma amfani da jargon fasaha. Baya ga rubuta magana zuwa rubutu, tsarin zai kuma iya fassara magana daga kowane harshe zuwa Turanci da gano bayyanar magana a cikin rafin sauti.

An samar da samfurori a cikin wakilai biyu: samfurin Ingilishi da kuma samfurin harsuna da yawa, wanda kuma yana goyon bayan harsunan Rasha, Ukrainian da Belarushiyanci. Bi da bi, kowane wakilci ya kasu kashi 5 zažužžukan, bambanta da girman da adadin sigogi da aka rufe a cikin samfurin. Girman girman girman, mafi girman daidaito da ingancin fitarwa, amma kuma mafi girman buƙatun girman ƙwaƙwalwar bidiyo na GPU da ƙananan aikin. Misali, mafi ƙarancin zaɓi ya ƙunshi sigogi miliyan 39 kuma yana buƙatar 1 GB na ƙwaƙwalwar bidiyo, kuma matsakaicin ya haɗa da sigogi miliyan 1550 kuma yana buƙatar 10 GB na ƙwaƙwalwar bidiyo. Mafi ƙarancin zaɓi shine sau 32 cikin sauri fiye da matsakaicin.

An buɗe lambar don fahimtar magana da tsarin fassarar Whisper

Tsarin yana amfani da gine-ginen cibiyar sadarwa na Transformer, wanda ya haɗa da maɓalli da mai ƙididdigewa waɗanda ke hulɗa da juna. An rushe sautin zuwa guntu na daƙiƙa 30, waɗanda aka juyar da su zuwa sikirin log-Mel kuma a aika zuwa mai rikodin. Ana aika fitar da maɓalli zuwa ga mai ƙididdigewa, wanda ke annabta wakilcin rubutu gauraye da alamu na musamman waɗanda ke ba da damar, a cikin wani tsari na gaba ɗaya, don magance matsaloli kamar gano harshe, ƙididdige ƙididdige lokaci na lafazin jimloli, kwafin magana a cikin harsuna daban-daban, da fassara zuwa Turanci.

source: budenet.ru

Add a comment