Mozilla-ի կողմից մշակված խոսքի ճանաչման շարժիչի թողարկում , որն իրականացնում է նույնանուն խոսքի ճանաչման ճարտարապետությունը, Baidu-ի հետազոտողների կողմից: Իրականացումը գրված է Python-ով՝ օգտագործելով TensorFlow մեքենայական ուսուցման հարթակը և անվճար MPL 2.0 լիցենզիայի ներքո։ Աշխատանքը աջակցվում է Linux, Android, macOS и WindowsԱրդյունավետությունը բավարար է շարժիչը LePotato, Raspberry Pi 3 և Raspberry Pi 4 տախտակների վրա օգտագործելու համար։
Հավաքածուն ներառում է նաև պատրաստված մոդելներ, ձայնային ֆայլեր և հրամանի տողերի ճանաչման գործիքներ: Խոսքի ճանաչումը ձեր ծրագրերում ինտեգրելու համար հասանելի են օգտագործման համար պատրաստ մոդուլներ Python-ի, NodeJS-ի, C++-ի և .NET-ի համար (երրորդ կողմի մշակողները առանձին-առանձին պատրաստել են մոդուլներ՝ и ). Պատրաստի մոդելը տրամադրվում է միայն անգլերենի համար, բայց այլ լեզուների համար Դուք կարող եք ինքներդ մարզել համակարգը՝ օգտագործելով , հավաքված Common Voice նախագծի կողմից։
DeepSpeech-ը զգալիորեն ավելի պարզ է, քան ավանդական համակարգերը և, այնուամենայնիվ, ապահովում է ավելի բարձր որակի ճանաչում կողմնակի աղմուկի առկայության դեպքում: Մշակումը չի օգտագործում ավանդական ակուստիկ մոդելներ և հնչյունների հայեցակարգ, այլ օգտագործում է լավ օպտիմիզացված մեքենայական ուսուցման համակարգ՝ հիմնված նեյրոնային ցանցի վրա, որը վերացնում է տարբեր շեղումների մոդելավորման համար առանձին բաղադրիչներ մշակելու անհրաժեշտությունը, ինչպիսիք են աղմուկը, արձագանքը և խոսքի առանձնահատկությունները:
Այս մոտեցման բացասական կողմն այն է, որ նեյրոնային ցանցի բարձրորակ ճանաչման և մարզման համար DeepSpeech շարժիչը պահանջում է մեծ ծավալի տարասեռ տվյալներ, որոնք թելադրված են իրական պայմաններում տարբեր ձայներով և բնական աղմուկի առկայությամբ:
Նման տվյալներ է հավաքում Mozilla-ի կողմից ստեղծված նախագիծը։ , ապահովելով ստուգված տվյալների շտեմարան 780 ժամով , գերմաներեն՝ 325, ֆրանսերեն՝ 173, ռուսերեն՝ 27 ժամ։
Common Voice նախագծի վերջնական նպատակն է կուտակել մարդկային խոսքի բնորոշ արտահայտությունների տարբեր արտասանությունների 10 ժամ ձայնագրություններ, ինչը թույլ կտա հասնել ճանաչման սխալների ընդունելի մակարդակի: Ներկայիս տեսքով նախագծի մասնակիցներն արդեն թելադրել են ընդհանուր առմամբ 4.3 հազար ժամ, որից 3.5 հազարը ստուգվել է: DeepSpeech-ի համար անգլերեն լեզվի վերջնական մոդելի մարզման ժամանակ օգտագործվել է 3816 ժամ խոսք, բացի Common Voice-ից, որը ներառում է LibriSpeech, Fisher և Switchboard նախագծերի տվյալները, ինչպես նաև մոտ 1700 ժամ ռադիոհաղորդումների տառադարձված ձայնագրություններ:
Ներբեռնման համար առաջարկվող անգլերենի պատրաստի մոդելն օգտագործելիս DeepSpeech-ում ճանաչման սխալի մակարդակը 7.5% է, երբ գնահատվում է թեստային հավաքածուով: Համեմատության համար, մարդկային ճանաչման սխալի մակարդակը 5.83%-ով:
DeepSpeech-ը բաղկացած է երկու ենթահամակարգից՝ ակուստիկ մոդելից և ապակոդավորիչից: Ակուստիկ մոդելը օգտագործում է խորը մեքենայական ուսուցման մեթոդներ՝ մուտքային աուդիոում որոշակի նշանների առկայության հավանականությունը հաշվարկելու համար։ Ապակոդավորիչը օգտագործում է ճառագայթի որոնման ալգորիթմ՝ նիշերի հավանականության տվյալները տեքստային ներկայացման փոխակերպելու համար:
Հիմնական DeepSpeech 0.6 (ճյուղ 0.6 համատեղելի չէ նախորդ թողարկումների հետ և պահանջում է կոդ և մոդելների թարմացում).
- Առաջարկվում է նոր հոսքային դեկոդեր, որն ապահովում է ավելի բարձր արձագանքողականություն և անկախ է մշակվող աուդիո տվյալների չափից: Արդյունքում, DeepSpeech-ի նոր տարբերակում հնարավոր է եղել ճանաչման ուշացումը կրճատել մինչև 260 մվրկ, ինչը 73%-ով ավելի արագ է, քան նախկինում, և թույլ է տալիս DeepSpeech-ը օգտագործել խոսքի արագ ճանաչման լուծումներում:
- Փոփոխություններ են կատարվել API-ում և աշխատանքներ են տարվել գործառույթների անունները միավորելու ուղղությամբ: Ավելացվել են գործառույթներ՝ լրացուցիչ համաժամացման մետատվյալներ ստանալու համար, որոնք թույլ են տալիս ոչ միայն ելքի վրա ստանալ տեքստային ներկայացում, այլև հետևել առանձին նիշերի և նախադասությունների կապակցմանը աուդիո հոսքի դիրքի հետ:
- Գրադարանից օգտվելու աջակցությունն ավելացվել է մոդուլի ուսուցման գործիքակազմում օպտիմիզացնել աշխատանքը կրկնվող նեյրոնային ցանցերի (RNN) հետ, ինչը հնարավորություն է տվել հասնել մոդելի ուսուցման արդյունավետության զգալի (մոտավորապես կրկնակի) բարձրացման, սակայն պահանջել է փոփոխություններ կոդի մեջ, որը խախտում է նախկինում պատրաստված մոդելների հետ համատեղելիությունը:
- TensorFlow տարբերակի նվազագույն պահանջները բարձրացվել են 1.13.1-ից մինչև 1.14.0: Ավելացվել է թեթև TensorFlow Lite տարբերակի աջակցությունը, որը DeepSpeech փաթեթի չափը 98 ՄԲ-ից կրճատում է մինչև 3.7 ՄԲ: Ներկառուցված և բջջային սարքերի վրա օգտագործելու համար մոդելի հետ փաթեթավորված ֆայլի չափը նույնպես կրճատվել է 188 ՄԲ-ից մինչև 47 ՄԲ (քվանտացումը օգտագործվել է սեղմման համար մոդելի մարզման ավարտից հետո):
- Լեզվի մոդելը փոխարկվել է տվյալների կառուցվածքի այլ ձևաչափի, որը թույլ է տալիս ֆայլերը հիշողության մեջ քարտեզագրել բեռնվածության ժամանակ: Հին ձևաչափի աջակցությունը դադարեցվել է:
- Լեզվի մոդելի ֆայլի բեռնման ռեժիմը փոխվել է, ինչը նվազեցրել է հիշողության սպառումը և մոդելի ստեղծումից հետո առաջին հարցումը մշակելիս ուշացումները: DeepSpeech-ը այժմ շահագործման ընթացքում սպառում է 22 անգամ պակաս հիշողություն և մեկնարկում է 500 անգամ ավելի արագ:
- Հազվագյուտ բառերը զտվել են լեզվի մոդելում: Բառերի ընդհանուր թիվը կրճատվել է մինչև 500 ամենահայտնի բառերը, որոնք գտնվել են տեքստում, որոնք օգտագործվում են մոդելի պատրաստման համար: Կատարված մաքրումը թույլ տվեց մեզ նվազեցնել լեզվի մոդելի չափը 1800 ՄԲ-ից մինչև 900 ՄԲ՝ գործնականում չազդելով ճանաչման սխալի արագության վրա:
- Ավելացված է աջակցություն տարբեր ստեղծելով թրեյնինգում օգտագործվող ձայնային տվյալների լրացուցիչ տատանումներ (ավելացում) (օրինակ՝ աղավաղված կամ աղմկոտ տարբերակների շարքի ավելացում):
- Ավելացվեց գրադարան՝ կապանքներով՝ .NET հարթակի վրա հիմնված հավելվածների հետ ինտեգրվելու համար:
- Փաստաթղթերը վերամշակվել են և այժմ հավաքվում են առանձին կայքում: .
Source: opennet.ru
