Kodi për sistemin e njohjes dhe përkthimit të të folurit Whisper është hapur

Projekti OpenAI, i cili zhvillon projekte publike në fushën e inteligjencës artificiale, ka publikuar zhvillime në lidhje me sistemin e njohjes së të folurit Whisper. Pretendohet se për të folurin në anglisht sistemi ofron nivele besueshmërie dhe saktësie të njohjes automatike afër njohjes njerëzore. Kodi për zbatimin e referencës bazuar në kornizën PyTorch dhe një grup modelesh tashmë të trajnuara, gati për përdorim, janë hapur. Kodi është i hapur nën licencën MIT.

Për të trajnuar modelin, u përdorën 680 mijë orë të dhëna të të folurit, të mbledhura nga disa koleksione që mbulojnë gjuhë të ndryshme dhe fusha lëndore. Rreth 1/3 e të dhënave të të folurit të përfshirë në trajnim janë në gjuhë të tjera përveç anglishtes. Sistemi i propozuar trajton saktë situata të tilla si shqiptimi i theksuar, zhurma e sfondit dhe përdorimi i zhargonit teknik. Përveç transkriptimit të të folurit në tekst, sistemi gjithashtu mund të përkthejë fjalimin nga çdo gjuhë në anglisht dhe të zbulojë shfaqjen e të folurit në transmetimin audio.

Modelet janë formuar në dy përfaqësime: një model për gjuhën angleze dhe një model shumëgjuhësh, i cili gjithashtu mbështet gjuhët ruse, ukrainase dhe bjelloruse. Nga ana tjetër, çdo paraqitje ndahet në 5 opsione, të ndryshme në madhësi dhe numrin e parametrave të mbuluar në model. Sa më e madhe të jetë madhësia, aq më e madhe është saktësia dhe cilësia e njohjes, por edhe aq më të larta janë kërkesat për madhësinë e kujtesës video GPU dhe aq më e ulët është performanca. Për shembull, opsioni minimal përfshin 39 milion parametra dhe kërkon 1 GB memorie video, dhe maksimumi përfshin 1550 milion parametra dhe kërkon 10 GB memorie video. Opsioni minimal është 32 herë më i shpejtë se maksimumi.

Kodi për sistemin e njohjes dhe përkthimit të të folurit Whisper është hapur

Sistemi përdor arkitekturën e rrjetit nervor Transformer, i cili përfshin një kodues dhe dekoder që ndërveprojnë me njëri-tjetrin. Audioja ndahet në copa 30 sekondash, të cilat konvertohen në një spektrogram log-Mel dhe dërgohen në kodues. Prodhimi i koduesit i dërgohet dekoderit, i cili parashikon një paraqitje teksti të përzier me shenja të veçanta që lejojnë, në një model të përgjithshëm, të zgjidhin probleme të tilla si zbulimi i gjuhës, llogaritja e kronologjisë së shqiptimit të frazave, transkriptimi i të folurit në gjuhë të ndryshme dhe përkthim në anglisht.

Burimi: opennet.ru

Shto një koment