Տեքստի ճանաչման համակարգի թողարկում Tesseract 5.0

Հրապարակվել է Tesseract 4.1 օպտիկական տեքստի ճանաչման համակարգի թողարկումը, որն աջակցում է UTF-8 նիշերի և տեքստերի ճանաչմանը ավելի քան 100 լեզուներով, այդ թվում՝ ռուսերեն, ղազախերեն, բելառուսերեն և ուկրաիներեն: Արդյունքը կարող է պահպանվել պարզ տեքստով կամ HTML (hOCR), ALTO (XML), PDF և TSV ձևաչափերով: Համակարգն ի սկզբանե ստեղծվել է 1985-1995 թվականներին Hewlett Packard լաբորատորիայում, 2005 թվականին կոդը բացվել է Apache լիցենզիայի ներքո և հետագայում մշակվել Google-ի աշխատակիցների մասնակցությամբ։ Նախագծի սկզբնական կոդը տարածվում է Apache 2.0 լիցենզիայի ներքո:

Tesseract-ը ներառում է կոնսոլային կոմունալ ծրագիր և libtesseract գրադարան՝ OCR ֆունկցիոնալությունը այլ հավելվածներում ներկառուցելու համար: Երրորդ կողմի GUI միջերեսները, որոնք աջակցում են Tesseract-ին, ներառում են gImageReader, VietOCR և YAGF: Առաջարկվում են երկու ճանաչման շարժիչներ. դասականը, որը ճանաչում է տեքստը առանձին նիշերի օրինաչափությունների մակարդակով, և նորը, որը հիմնված է LSTM պարբերական նեյրոնային ցանցի վրա հիմնված մեքենայական ուսուցման համակարգի օգտագործման վրա, որը օպտիմիզացված է ամբողջ տողերը ճանաչելու և թույլ տալու համար: ճշգրտության զգալի աճ: Պատրաստի վարժեցված մոդելները հրատարակվել են 123 լեզուների համար։ Գործողությունը օպտիմալացնելու համար առաջարկվում են OpenMP և SIMD հրահանգներ AVX2, AVX, NEON կամ SSE4.1 օգտագործող մոդուլներ:

Tesseract 5.0-ի հիմնական բարելավումները.

  • Տարբերակի համարի զգալի փոփոխությունը պայմանավորված է API-ում կատարված փոփոխություններով, որոնք խախտում են համատեղելիությունը: Մասնավորապես, հանրությանը հասանելի libtesseract API-ն այլևս կապված չէ սեփականության GenericVector և STRING տվյալների տեսակների հետ՝ հօգուտ std::string և std::vector:
  • Աղբյուրի տեքստի ծառը վերակազմավորվել է: Հանրային վերնագրի ֆայլերը տեղափոխվել են include/tesseract գրացուցակ:
  • Հիշողության կառավարումը վերափոխվել է, բոլոր malloc և անվճար զանգերը փոխարինվել են C++ կոդով: Կատարվել է օրենսգրքի ընդհանուր արդիականացում։
  • Ավելացվել են օպտիմալացումներ ARM և ARM64 ճարտարապետությունների համար, ARM NEON հրահանգներն օգտագործվում են հաշվարկներն արագացնելու համար: Կատարվել է բոլոր ճարտարապետությունների համար ընդհանուր կատարողականի օպտիմալացում:
  • Գործարկվել են ուսուցման մոդելների և տեքստի ճանաչման նոր ռեժիմներ՝ հիմնված լողացող կետի հաշվարկների օգտագործման վրա: Նոր ռեժիմներն առաջարկում են ավելի բարձր կատարողականություն և ավելի քիչ հիշողության սպառում: LSTM շարժիչում float32 արագ ռեժիմը լռելյայն միացված է:
  • Անցում է կատարվել Յունիկոդի նորմալացման օգտագործմանը՝ օգտագործելով NFC (Normalization Form Canonical) ձևը:
  • Ավելացվեց մատյանների մանրամասները կարգավորելու տարբերակ (--loglevel):
  • Ավտոգործիքների վրա հիմնված կառուցման համակարգը վերանախագծվել է և անցել է ոչ ռեկուրսիվ ռեժիմի կառուցման:
  • Git-ի «վարպետ» մասնաճյուղը վերանվանվել է «հիմնականի»:
  • Ավելացվել է աջակցություն macOS և Apple համակարգերի նոր թողարկումներին, որոնք հիմնված են M1 չիպի վրա:

    Source: opennet.ru

Добавить комментарий