Mozilla-ն ներկայացրել է DeepSpeech 0.6 Խոսքի ճանաչման շարժիչը

Ներկայացվել է Mozilla-ի կողմից մշակված խոսքի ճանաչման շարժիչի թողարկում DeepSpeech 0.6, որն իրականացնում է նույնանուն խոսքի ճանաչման ճարտարապետությունը, առաջարկված Baidu-ի հետազոտողների կողմից: Իրականացումը գրված է Python-ով՝ օգտագործելով TensorFlow մեքենայական ուսուցման հարթակը և տարածվում է անվճար MPL 2.0 լիցենզիայի ներքո։ Աշխատանքը աջակցվում է Linux, Android, macOS и WindowsԱրդյունավետությունը բավարար է շարժիչը LePotato, Raspberry Pi 3 և Raspberry Pi 4 տախտակների վրա օգտագործելու համար։

Հավաքածուն ներառում է նաև առաջարկվում են պատրաստված մոդելներ, օրինակներ ձայնային ֆայլեր և հրամանի տողերի ճանաչման գործիքներ: Խոսքի ճանաչումը ձեր ծրագրերում ինտեգրելու համար հասանելի են օգտագործման համար պատրաստ մոդուլներ Python-ի, NodeJS-ի, C++-ի և .NET-ի համար (երրորդ կողմի մշակողները առանձին-առանձին պատրաստել են մոդուլներ՝ Ժանգոտվել и Go). Պատրաստի մոդելը տրամադրվում է միայն անգլերենի համար, բայց այլ լեզուների համար կից հրահանգներ Դուք կարող եք ինքներդ մարզել համակարգը՝ օգտագործելով ձայնային տվյալներ, հավաքված Common Voice նախագծի կողմից։

DeepSpeech-ը զգալիորեն ավելի պարզ է, քան ավանդական համակարգերը և, այնուամենայնիվ, ապահովում է ավելի բարձր որակի ճանաչում կողմնակի աղմուկի առկայության դեպքում: Մշակումը չի օգտագործում ավանդական ակուստիկ մոդելներ և հնչյունների հայեցակարգ, այլ օգտագործում է լավ օպտիմիզացված մեքենայական ուսուցման համակարգ՝ հիմնված նեյրոնային ցանցի վրա, որը վերացնում է տարբեր շեղումների մոդելավորման համար առանձին բաղադրիչներ մշակելու անհրաժեշտությունը, ինչպիսիք են աղմուկը, արձագանքը և խոսքի առանձնահատկությունները:

Այս մոտեցման բացասական կողմն այն է, որ նեյրոնային ցանցի բարձրորակ ճանաչման և մարզման համար DeepSpeech շարժիչը պահանջում է մեծ ծավալի տարասեռ տվյալներ, որոնք թելադրված են իրական պայմաններում տարբեր ձայներով և բնական աղմուկի առկայությամբ:
Նման տվյալներ է հավաքում Mozilla-ի կողմից ստեղծված նախագիծը։ Ընդհանուր ձայն, ապահովելով ստուգված տվյալների շտեմարան 780 ժամով Անգլերեն, գերմաներեն՝ 325, ֆրանսերեն՝ 173, ռուսերեն՝ 27 ժամ։

Common Voice նախագծի վերջնական նպատակն է կուտակել մարդկային խոսքի բնորոշ արտահայտությունների տարբեր արտասանությունների 10 ժամ ձայնագրություններ, ինչը թույլ կտա հասնել ճանաչման սխալների ընդունելի մակարդակի: Ներկայիս տեսքով նախագծի մասնակիցներն արդեն թելադրել են ընդհանուր առմամբ 4.3 հազար ժամ, որից 3.5 հազարը ստուգվել է: DeepSpeech-ի համար անգլերեն լեզվի վերջնական մոդելի մարզման ժամանակ օգտագործվել է 3816 ժամ խոսք, բացի Common Voice-ից, որը ներառում է LibriSpeech, Fisher և Switchboard նախագծերի տվյալները, ինչպես նաև մոտ 1700 ժամ ռադիոհաղորդումների տառադարձված ձայնագրություններ:

Ներբեռնման համար առաջարկվող անգլերենի պատրաստի մոդելն օգտագործելիս DeepSpeech-ում ճանաչման սխալի մակարդակը 7.5% է, երբ գնահատվում է թեստային հավաքածուով: LibriSpeechՀամեմատության համար, մարդկային ճանաչման սխալի մակարդակը գնահատվեն 5.83%-ով:

DeepSpeech-ը բաղկացած է երկու ենթահամակարգից՝ ակուստիկ մոդելից և ապակոդավորիչից: Ակուստիկ մոդելը օգտագործում է խորը մեքենայական ուսուցման մեթոդներ՝ մուտքային աուդիոում որոշակի նշանների առկայության հավանականությունը հաշվարկելու համար։ Ապակոդավորիչը օգտագործում է ճառագայթի որոնման ալգորիթմ՝ նիշերի հավանականության տվյալները տեքստային ներկայացման փոխակերպելու համար:

Հիմնական նորամուծություններ DeepSpeech 0.6 (ճյուղ 0.6 համատեղելի չէ նախորդ թողարկումների հետ և պահանջում է կոդ և մոդելների թարմացում).

  • Առաջարկվում է նոր հոսքային դեկոդեր, որն ապահովում է ավելի բարձր արձագանքողականություն և անկախ է մշակվող աուդիո տվյալների չափից: Արդյունքում, DeepSpeech-ի նոր տարբերակում հնարավոր է եղել ճանաչման ուշացումը կրճատել մինչև 260 մվրկ, ինչը 73%-ով ավելի արագ է, քան նախկինում, և թույլ է տալիս DeepSpeech-ը օգտագործել խոսքի արագ ճանաչման լուծումներում:
  • Փոփոխություններ են կատարվել API-ում և աշխատանքներ են տարվել գործառույթների անունները միավորելու ուղղությամբ: Ավելացվել են գործառույթներ՝ լրացուցիչ համաժամացման մետատվյալներ ստանալու համար, որոնք թույլ են տալիս ոչ միայն ելքի վրա ստանալ տեքստային ներկայացում, այլև հետևել առանձին նիշերի և նախադասությունների կապակցմանը աուդիո հոսքի դիրքի հետ:
  • Գրադարանից օգտվելու աջակցությունն ավելացվել է մոդուլի ուսուցման գործիքակազմում CuDNN օպտիմիզացնել աշխատանքը կրկնվող նեյրոնային ցանցերի (RNN) հետ, ինչը հնարավորություն է տվել հասնել մոդելի ուսուցման արդյունավետության զգալի (մոտավորապես կրկնակի) բարձրացման, սակայն պահանջել է փոփոխություններ կոդի մեջ, որը խախտում է նախկինում պատրաստված մոդելների հետ համատեղելիությունը:
  • TensorFlow տարբերակի նվազագույն պահանջները բարձրացվել են 1.13.1-ից մինչև 1.14.0: Ավելացվել է թեթև TensorFlow Lite տարբերակի աջակցությունը, որը DeepSpeech փաթեթի չափը 98 ՄԲ-ից կրճատում է մինչև 3.7 ՄԲ: Ներկառուցված և բջջային սարքերի վրա օգտագործելու համար մոդելի հետ փաթեթավորված ֆայլի չափը նույնպես կրճատվել է 188 ՄԲ-ից մինչև 47 ՄԲ (քվանտացումը օգտագործվել է սեղմման համար մոդելի մարզման ավարտից հետո):
  • Լեզվի մոդելը փոխարկվել է տվյալների կառուցվածքի այլ ձևաչափի, որը թույլ է տալիս ֆայլերը հիշողության մեջ քարտեզագրել բեռնվածության ժամանակ: Հին ձևաչափի աջակցությունը դադարեցվել է:
  • Լեզվի մոդելի ֆայլի բեռնման ռեժիմը փոխվել է, ինչը նվազեցրել է հիշողության սպառումը և մոդելի ստեղծումից հետո առաջին հարցումը մշակելիս ուշացումները: DeepSpeech-ը այժմ շահագործման ընթացքում սպառում է 22 անգամ պակաս հիշողություն և մեկնարկում է 500 անգամ ավելի արագ:

    Mozilla-ն ներկայացրել է DeepSpeech 0.6 Խոսքի ճանաչման շարժիչը
  • Հազվագյուտ բառերը զտվել են լեզվի մոդելում: Բառերի ընդհանուր թիվը կրճատվել է մինչև 500 ամենահայտնի բառերը, որոնք գտնվել են տեքստում, որոնք օգտագործվում են մոդելի պատրաստման համար: Կատարված մաքրումը թույլ տվեց մեզ նվազեցնել լեզվի մոդելի չափը 1800 ՄԲ-ից մինչև 900 ՄԲ՝ գործնականում չազդելով ճանաչման սխալի արագության վրա:
  • Ավելացված է աջակցություն տարբեր տեխնիկ ստեղծելով թրեյնինգում օգտագործվող ձայնային տվյալների լրացուցիչ տատանումներ (ավելացում) (օրինակ՝ աղավաղված կամ աղմկոտ տարբերակների շարքի ավելացում):
  • Ավելացվեց գրադարան՝ կապանքներով՝ .NET հարթակի վրա հիմնված հավելվածների հետ ինտեգրվելու համար:
  • Փաստաթղթերը վերամշակվել են և այժմ հավաքվում են առանձին կայքում: deepspeech.readthedocs.io.

Source: opennet.ru

Գնեք հուսալի հոստինգ DDoS պաշտպանությամբ կայքերի, VPS VDS սերվերների համար 🔥 Գնեք հուսալի կայքերի հոսթինգ՝ DDoS պաշտպանությամբ, VPS VDS սերվերներով | ProHoster