Whisper խոսքի ճանաչման և թարգմանության համակարգի կոդը բացվել է

Արհեստական ​​ինտելեկտի ոլորտում հանրային նախագծեր մշակող OpenAI նախագիծը հրապարակել է մշակումներ՝ կապված Whisper խոսքի ճանաչման համակարգի հետ։ Ենթադրվում է, որ անգլերեն լեզվով խոսքի համար համակարգը ապահովում է ավտոմատ ճանաչման հուսալիության և ճշգրտության մակարդակներ, որոնք մոտ են մարդկային ճանաչմանը: Բացվել են PyTorch շրջանակի վրա հիմնված հղման իրականացման կոդը և արդեն պատրաստված մոդելների մի շարք, որոնք պատրաստ են օգտագործման: Կոդը բաց է MIT լիցենզիայի ներքո:

Մոդելը վարժեցնելու համար օգտագործվել է 680 հազար ժամ խոսքի տվյալներ՝ հավաքված մի քանի հավաքածուներից, որոնք ընդգրկում են տարբեր լեզուներ և առարկայական ոլորտներ: Դասընթացին ներգրավված խոսքի տվյալների մոտ 1/3-ը անգլերենից բացի այլ լեզուներով է: Առաջարկվող համակարգը ճիշտ է լուծում այնպիսի իրավիճակներ, ինչպիսիք են ընդգծված արտասանությունը, ֆոնային աղմուկը և տեխնիկական ժարգոնի օգտագործումը: Բացի խոսքը տեքստի վերծանելուց, համակարգը կարող է նաև ցանկացած լեզվից խոսք թարգմանել անգլերեն և հայտնաբերել խոսքի տեսքը աուդիո հոսքում:

Մոդելները ձևավորվում են երկու ներկայացուցչություններով՝ անգլերեն լեզվի մոդել և բազմալեզու մոդել, որն աջակցում է նաև ռուսերեն, ուկրաիներեն և բելառուսերեն լեզուներին: Իր հերթին, յուրաքանչյուր ներկայացում բաժանված է 5 տարբերակի, որոնք տարբերվում են մոդելում ընդգրկված չափերով և պարամետրերով: Որքան մեծ է չափը, այնքան մեծ է ճանաչման ճշգրտությունը և որակը, բայց նաև որքան բարձր են պահանջները GPU վիդեո հիշողության չափի համար և այնքան ցածր է կատարողականը: Օրինակ, նվազագույն տարբերակը ներառում է 39 միլիոն պարամետր և պահանջում է 1 ԳԲ վիդեո հիշողություն, իսկ առավելագույնը ներառում է 1550 միլիոն պարամետր և պահանջում է 10 ԳԲ վիդեո հիշողություն: Նվազագույն տարբերակը 32 անգամ ավելի արագ է, քան առավելագույնը:

Whisper խոսքի ճանաչման և թարգմանության համակարգի կոդը բացվել է

Համակարգն օգտագործում է Transformer նեյրոնային ցանցի ճարտարապետությունը, որը ներառում է կոդավորող և ապակոդավորող, որոնք փոխազդում են միմյանց հետ: Ձայնը բաժանվում է 30 վայրկյանանոց հատվածների, որոնք վերածվում են log-Mel սպեկտրոգրամի և ուղարկվում կոդավորիչ: Կոդավորողի ելքը ուղարկվում է ապակոդավորողին, որը կանխատեսում է տեքստի ներկայացում` խառնված հատուկ նշաններով, որոնք թույլ են տալիս մեկ ընդհանուր մոդելում լուծել այնպիսի խնդիրներ, ինչպիսիք են լեզվի հայտնաբերումը, արտահայտությունների արտասանության ժամանակագրությունը, խոսքի տառադարձումը: տարբեր լեզուներ և թարգմանություն անգլերեն:

Source: opennet.ru

Добавить комментарий