Awọn koodu fun idanimọ ọrọ Whisper ati eto itumọ ti ṣii

Ise agbese OpenAI, eyiti o ndagba awọn iṣẹ akanṣe ni aaye ti oye atọwọda, ti ṣe atẹjade awọn idagbasoke ti o ni ibatan si eto idanimọ ọrọ Whisper. O jẹ ẹtọ pe fun ọrọ ni ede Gẹẹsi eto naa n pese awọn ipele ti igbẹkẹle ati deede ti idanimọ laifọwọyi ti o sunmọ idanimọ eniyan. Awọn koodu fun imuse itọkasi ti o da lori ilana PyTorch ati ṣeto ti awọn awoṣe ikẹkọ tẹlẹ, ti o ṣetan fun lilo, ti ṣii. Awọn koodu wa ni sisi labẹ awọn MIT iwe-ašẹ.

Lati ṣe ikẹkọ awoṣe, awọn wakati 680 ẹgbẹrun ti data ọrọ ni a lo, ti a gba lati ọpọlọpọ awọn akojọpọ ti o bo awọn ede oriṣiriṣi ati awọn agbegbe koko-ọrọ. Nipa 1/3 ti data ọrọ ti o wa ninu ikẹkọ wa ni awọn ede miiran ju Gẹẹsi. Eto ti a dabaa ṣe deede awọn ipo bii pronunciation asẹnti, ariwo abẹlẹ, ati lilo jargon imọ-ẹrọ. Ni afikun si kikọ ọrọ si ọrọ, eto naa tun le tumọ ọrọ lati ede eyikeyi si Gẹẹsi ati rii irisi ọrọ ni ṣiṣan ohun.

Awọn awoṣe ti wa ni akoso ni awọn aṣoju meji: awoṣe fun ede Gẹẹsi ati awoṣe multilingual, eyiti o tun ṣe atilẹyin awọn ede Russian, Ukrainian ati Belarusian. Ni ọna, aṣoju kọọkan ti pin si awọn aṣayan 5, ti o yatọ ni iwọn ati nọmba awọn aye ti o bo ninu awoṣe. Ti o tobi ni iwọn, ti o tobi ni išedede ati didara ti idanimọ, sugbon tun awọn ti o ga awọn ibeere fun awọn iwọn ti awọn GPU fidio iranti ati awọn kekere išẹ. Fun apẹẹrẹ, aṣayan ti o kere julọ pẹlu awọn paramita miliọnu 39 ati pe o nilo 1 GB ti iranti fidio, ati pe o pọju pẹlu awọn aye miliọnu 1550 ati nilo 10 GB ti iranti fidio. Aṣayan ti o kere julọ jẹ awọn akoko 32 yiyara ju iwọn lọ.

Awọn koodu fun idanimọ ọrọ Whisper ati eto itumọ ti ṣii

Eto naa nlo faaji nẹtiwọọki nkankikan Amunawa, eyiti o pẹlu kooduopo ati decoder ti o nlo pẹlu ara wọn. Ohùn naa ti fọ lulẹ si awọn ṣoki iṣẹju-aaya 30, eyiti o yipada si oju-iwoye log-Mel kan ati firanṣẹ si koodu koodu. Ijade ti kooduopo naa ni a firanṣẹ si decoder, eyiti o sọ asọtẹlẹ aṣoju ọrọ kan ti o dapọ pẹlu awọn ami-ami pataki ti o gba laaye, ni awoṣe gbogbogbo kan, lati yanju awọn iṣoro bii wiwa ede, ṣiṣe iṣiro fun akoole ti pronunciation ti awọn gbolohun ọrọ, transcription ti ọrọ ni awọn ede oriṣiriṣi, ati itumọ si Gẹẹsi.

orisun: opennet.ru

Fi ọrọìwòye kun