Whisper խոսքի ճանաչման և թարգմանության համակարգի կոդը բացվել է

OpenAI նախագիծը, որը մշակում է արհեստական ​​բանականության ոլորտում հանրությանը հասանելի նախագծեր, հրապարակել է Whisper խոսքի ճանաչման համակարգի հետ կապված մշակումներ: Պնդվում է, որ անգլերենով խոսքի համար համակարգը ապահովում է ավտոմատ ճանաչման հուսալիության և ճշգրտության մակարդակներ, որոնք մոտ են մարդկային ճանաչմանը: PyTorch շրջանակի վրա հիմնված հղման իրականացման կոդը և օգտագործման համար պատրաստ արդեն իսկ պատրաստված մոդելների հավաքածուն բաց են: Կոդը բաց է MIT լիցենզիայի ներքո:

Մոդելը մարզվել է տարբեր լեզուներ և առարկայական ոլորտներ ընդգրկող մի քանի հավաքածուներից հավաքված 680 ժամ խոսքի տվյալների միջոցով: Դասընթացներում օգտագործված խոսքի տվյալների մոտ 1/3-ը անգլերենից բացի այլ լեզուներից է: Առաջարկվող համակարգը ճիշտ է կարգավորում այնպիսի իրավիճակներ, ինչպիսիք են շեշտադրված արտասանությունը, ֆոնային աղմուկի առկայությունը և տեխնիկական ժարգոնի օգտագործումը: Բացի խոսքը տեքստի վերածելուց, համակարգը կարող է նաև խոսքը թարգմանել ցանկացած լեզվից անգլերեն և հայտնաբերել խոսքի առկայությունը աուդիո հոսքում:

Մոդելները կազմված են երկու ներկայացման մեջ՝ անգլերեն լեզվի մոդել և բազմալեզու մոդել, որը աջակցում է ռուսերեն, ուկրաիներեն և բելառուսերեն լեզուներին: Իր հերթին, յուրաքանչյուր ներկայացում բաժանված է 5 տարբերակի, որոնք տարբերվում են չափսերով և մոդելի կողմից ներառված պարամետրերի քանակով: Որքան մեծ է չափը, այնքան մեծ է ճանաչման ճշգրտությունը և որակը, բայց նաև ավելի բարձր պահանջներ են առաջանում GPU տեսահիշողության չափի և ավելի ցածր արտադրողականության համար: Օրինակ, նվազագույն տարբերակը ներառում է 39 միլիոն պարամետր և պահանջում է 1 ԳԲ տեսահիշողություն, իսկ առավելագույնը՝ 1550 միլիոն պարամետր և պահանջում է 10 ԳԲ տեսահիշողություն: Նվազագույն տարբերակը 32 անգամ ավելի արագ է, քան առավելագույնը:

Whisper խոսքի ճանաչման և թարգմանության համակարգի կոդը բացվել է

Համակարգն օգտագործում է Transformer նեյրոնային ցանցի ճարտարապետությունը, որը ներառում է փոխազդող կոդավորիչ և դեկոդեր։ Աուդիոն բաժանվում է 30 վայրկյան տևողությամբ հատվածների, որոնք վերածվում են լոգ-Մել սպեկտրոգրամի և փոխանցվում կոդավորիչին։ Կոդավորիչի ելքային ազդանշանն ուղարկվում է դեկոդերին, որը կանխատեսում է տեքստի ներկայացում՝ խառնված հատուկ տոկենների հետ, որոնք թույլ են տալիս մեկ ընդհանուր մոդելի լուծել այնպիսի խնդիրներ, ինչպիսիք են լեզվի հայտնաբերումը, արտահայտությունների արտասանության ժամանակագրության հաշվառումը, տարբեր լեզուներով խոսքի տառադարձումը և անգլերեն թարգմանությունը։

Source: opennet.ru

Գնեք հուսալի հոստինգ DDoS պաշտպանությամբ կայքերի, VPS VDS սերվերների համար 🔥 Գնեք հուսալի կայքերի հոսթինգ՝ DDoS պաշտպանությամբ, VPS VDS սերվերներով | ProHoster