Mozilla-ն ներկայացրել է խոսքի ճանաչման DeepSpeech 0.6 շարժիչը

Ներկայացվել է Mozilla-ի կողմից մշակված խոսքի ճանաչման շարժիչի թողարկում DeepSpeech 0.6, որն իրականացնում է նույնանուն խոսքի ճանաչման ճարտարապետությունը, առաջարկված Baidu-ի հետազոտողների կողմից: Իրականացումը գրված է Python-ում՝ օգտագործելով TensorFlow մեքենայական ուսուցման հարթակը և տարածվում է անվճար MPL 2.0 լիցենզիայի ներքո: Աջակցում է աշխատել Linux-ի, Android-ի, macOS-ի և Windows-ի վրա: Կատարումը բավարար է շարժիչը LePotato, Raspberry Pi 3 և Raspberry Pi 4 տախտակների վրա օգտագործելու համար:

Ներառված է նաև հավաքածուի մեջ առաջարկվում են պատրաստված մոդելներ, օրինակներ ձայնային ֆայլեր և ճանաչման գործիքներ հրամանի տողից: Խոսքի ճանաչման գործառույթը ձեր ծրագրերում ինտեգրելու համար առաջարկվում են օգտագործման համար պատրաստ մոդուլներ Python-ի, NodeJS-ի, C++-ի և .NET-ի համար (երրորդ կողմի մշակողները առանձին-առանձին պատրաստել են մոդուլներ դրա համար. Ժանգոտվել и Go). Պատրաստի մոդելը տրամադրվում է միայն անգլերենի համար, բայց այլ լեզուների համար կից հրահանգներ դուք կարող եք ինքներդ մարզել համակարգը՝ օգտագործելով ձայնային տվյալներ, հավաքված Common Voice նախագծի կողմից։

DeepSpeech-ը շատ ավելի պարզ է, քան ավանդական համակարգերը և միևնույն ժամանակ ապահովում է ավելի բարձր որակի ճանաչում կողմնակի աղմուկի առկայության դեպքում: Այն շրջանցում է ավանդական ակուստիկ մոդելները և հնչյունների հայեցակարգը՝ փոխարենը օգտագործելով մեքենայական ուսուցման բարձր օպտիմիզացված նեյրոնային ցանցի վրա հիմնված համակարգ, որը վերացնում է տարբեր անոմալիաների մոդելավորման համար առանձին բաղադրիչներ մշակելու անհրաժեշտությունը, ինչպիսիք են աղմուկը, արձագանքը և խոսքի առանձնահատկությունները:

Այս մոտեցման բացասական կողմն այն է, որ նեյրոնային ցանցի որակյալ ճանաչում և մարզում ստանալու համար DeepSpeech շարժիչը պահանջում է մեծ քանակությամբ տարասեռ տվյալներ՝ թելադրված իրական պայմաններում տարբեր ձայներով և բնական աղմուկի առկայությամբ:
Նման տվյալներ է հավաքում Mozilla-ում ստեղծված նախագիծը։ Ընդհանուր ձայն, ապահովելով ստուգված տվյալների շտեմարան 780 ժամով Անգլերեն, գերմաներեն՝ 325, ֆրանսերեն՝ 173, ռուսերեն՝ 27 ժամ։

Common Voice նախագծի վերջնական նպատակն է կուտակել մարդկային խոսքի բնորոշ արտահայտությունների տարբեր արտասանությունների 10 հազար ժամ ձայնագրություններ, ինչը թույլ կտա հասնել ճանաչման սխալների ընդունելի մակարդակի: Իր ներկայիս տեսքով ծրագրի մասնակիցներն արդեն թելադրել են ընդհանուր առմամբ 4.3 հազար ժամ, որից 3.5 հազարը փորձարկվել է։ DeepSpeech-ի համար անգլերեն լեզվի վերջնական մոդելի վերապատրաստման ժամանակ օգտագործվել է 3816 ժամ խոսք, ի լրումն LibriSpeech, Fisher և Switchboard նախագծերի տվյալների ընդհանուր ձայնի, ինչպես նաև ներառում է շուրջ 1700 ժամ տառադարձված ռադիոհաղորդումների ձայնագրություններ:

Ներբեռնման համար առաջարկվող անգլերենի պատրաստի մոդելն օգտագործելիս DeepSpeech-ում ճանաչման սխալի մակարդակը 7.5% է, երբ գնահատվում է թեստային հավաքածուով: LibriSpeech. Համեմատության համար՝ մարդու ճանաչման սխալի մակարդակը գնահատվեն 5.83%-ով:

DeepSpeech-ը բաղկացած է երկու ենթահամակարգից՝ ակուստիկ մոդելից և ապակոդավորիչից: Ակուստիկ մոդելը օգտագործում է խորը մեքենայական ուսուցման մեթոդներ՝ մուտքային ձայնում որոշակի նիշերի առկայության հավանականությունը հաշվարկելու համար: Ապակոդավորիչը օգտագործում է ճառագայթների որոնման ալգորիթմ՝ նիշերի հավանականության տվյալները տեքստային ներկայացման փոխակերպելու համար:

Հիմնական նորամուծություններ DeepSpeech 0.6 (0.6 մասնաճյուղը համատեղելի չէ նախորդ թողարկումների հետ և պահանջում է կոդի և մոդելի թարմացումներ).

  • Առաջարկվում է նոր հոսքային ապակոդավորիչ, որն ապահովում է ավելի բարձր արձագանքողություն և անկախ է մշակված աուդիո տվյալների չափից: Արդյունքում, DeepSpeech-ի նոր տարբերակին հաջողվել է նվազեցնել ճանաչման հետաձգումը մինչև 260 ms, ինչը 73%-ով ավելի արագ է, քան նախկինում, և թույլ է տալիս DeepSpeech-ին օգտագործել խոսքի ճանաչման լուծումներում:
  • Փոփոխություններ են կատարվել API-ում և աշխատանքներ են տարվել գործառույթների անունները միավորելու ուղղությամբ: Ավելացվել են գործառույթներ՝ համաժամացման վերաբերյալ լրացուցիչ մետատվյալներ ստանալու համար, ինչը թույլ է տալիս ոչ միայն ստանալ տեքստի ներկայացում որպես ելք, այլ նաև հետևել առանձին նիշերի և նախադասությունների կապակցմանը ձայնային հոսքի դիրքի հետ:
  • Գրադարանից օգտվելու աջակցությունը ավելացվել է վերապատրաստման մոդուլների գործիքակազմում CuDNN օպտիմիզացնել աշխատանքը կրկնվող նեյրոնային ցանցերի (RNN) հետ, ինչը հնարավորություն տվեց հասնել մոդելի ուսուցման արդյունավետության զգալի (մոտավորապես կրկնակի) աճին, բայց պահանջեց փոփոխություններ կոդի մեջ, որը խախտում էր նախկինում պատրաստված մոդելների հետ համատեղելիությունը:
  • TensorFlow տարբերակի նվազագույն պահանջները 1.13.1-ից բարձրացվել են 1.14.0: Ավելացվեց աջակցություն TensorFlow Lite-ի թեթև տարբերակին, որը նվազեցնում է DeepSpeech փաթեթի չափը 98 ՄԲ-ից մինչև 3.7 ՄԲ: Ներկառուցված և շարժական սարքերում օգտագործելու համար մոդելի հետ փաթեթավորված ֆայլի չափը նույնպես կրճատվել է 188 ՄԲ-ից մինչև 47 ՄԲ (քվանտացման մեթոդը օգտագործվում է մոդելի վերապատրաստումից հետո սեղմելու համար):
  • Լեզվի մոդելը թարգմանվել է տվյալների կառուցվածքի այլ ձևաչափով, որը թույլ է տալիս ֆայլերը բեռնելիս քարտեզագրել հիշողության մեջ: Հին ձևաչափի աջակցությունը դադարեցվել է:
  • Լեզվի մոդելով ֆայլի բեռնման ռեժիմը փոխվել է, ինչը նվազեցրել է հիշողության սպառումը և կրճատել ուշացումները մոդելը ստեղծելուց հետո առաջին հարցումը մշակելիս: Գործողության ընթացքում DeepSpeech-ն այժմ սպառում է 22 անգամ ավելի քիչ հիշողություն և գործարկում է 500 անգամ ավելի արագ:

    Mozilla-ն ներկայացրել է խոսքի ճանաչման DeepSpeech 0.6 շարժիչը

  • Լեզվի մոդելում ֆիլտրացվել են հազվագյուտ բառեր: Բառերի ընդհանուր թիվը կրճատվել է մինչև 500 հազար ամենահայտնի բառերը, որոնք գտնվել են մոդելի վերապատրաստման համար օգտագործված տեքստում: Մաքրումը թույլ տվեց նվազեցնել լեզվի մոդելի չափը 1800 ՄԲ-ից մինչև 900 ՄԲ՝ գործնականում չազդելով ճանաչման սխալի արագության վրա:
  • Ավելացված է աջակցություն տարբեր տեխնիկ ստեղծելով ուսուցման ընթացքում օգտագործվող աուդիո տվյալների լրացուցիչ տատանումներ (ավելացում) (օրինակ՝ մի շարք տարբերակների վրա աղավաղում կամ աղմուկ ավելացնելով):
  • Ավելացվեց գրադարան՝ կապանքներով՝ .NET հարթակի վրա հիմնված հավելվածների հետ ինտեգրվելու համար:
  • Փաստաթղթերը վերամշակվել են և այժմ հավաքվում են առանձին կայքէջում: deepspeech.readthedocs.io.

Source: opennet.ru

Добавить комментарий