Հրապարակվել է Tesseract 5.2 օպտիկական տեքստի ճանաչման համակարգի թողարկումը, որն աջակցում է UTF-8 նիշերի և տեքստերի ճանաչմանը ավելի քան 100 լեզուներով, այդ թվում՝ ռուսերեն, ղազախերեն, բելառուսերեն և ուկրաիներեն: Արդյունքը կարող է պահպանվել պարզ տեքստով կամ HTML (hOCR), ALTO (XML), PDF և TSV ձևաչափերով: Համակարգն ի սկզբանե ստեղծվել է 1985-1995 թվականներին Hewlett Packard լաբորատորիայում, 2005 թվականին կոդը բացվել է Apache լիցենզիայի ներքո և հետագայում մշակվել Google-ի աշխատակիցների մասնակցությամբ։ Նախագծի սկզբնական կոդը տարածվում է Apache 2.0 լիցենզիայի ներքո:
Tesseract-ը ներառում է կոնսոլային կոմունալ ծրագիր և libtesseract գրադարան՝ OCR ֆունկցիոնալությունը այլ հավելվածներում ներկառուցելու համար: Երրորդ կողմի GUI միջերեսները, որոնք աջակցում են Tesseract-ին, ներառում են gImageReader, VietOCR և YAGF: Առաջարկվում են երկու ճանաչման շարժիչներ. դասականը, որը ճանաչում է տեքստը առանձին նիշերի օրինաչափությունների մակարդակով, և նորը, որը հիմնված է LSTM պարբերական նեյրոնային ցանցի վրա հիմնված մեքենայական ուսուցման համակարգի օգտագործման վրա, որը օպտիմիզացված է ամբողջ տողերը ճանաչելու և թույլ տալու համար: ճշգրտության զգալի աճ: Պատրաստի վարժեցված մոդելները հրատարակվել են 123 լեզուների համար։ Գործողությունը օպտիմալացնելու համար առաջարկվում են OpenMP և SIMD հրահանգներ AVX2, AVX, AVX512F, NEON կամ SSE4.1 օգտագործող մոդուլներ:
Tesseract 5.2-ի հիմնական բարելավումները.
- Ավելացվել են օպտիմիզացումներ, որոնք իրականացվել են Intel AVX512F հրահանգների միջոցով:
- C API-ն իրականացնում է մի ֆունկցիա՝ թեսերակտը սկզբնավորելու համար՝ բեռնելով մեքենայական ուսուցման մոդելը հիշողությունից:
- Ավելացվեց invert_threshold պարամետրը, որը որոշում է տեքստային տողերի հակադարձման մակարդակը: Նախնական արժեքը 0.7 է: Հակադարձումն անջատելու համար արժեքը սահմանեք 0:
- 32-բիթանոց հոսթերների վրա շատ մեծ փաստաթղթերի բարելավված մշակումը:
- std::regex ֆունկցիաների օգտագործումից անցում է կատարվել std::string:
- Autotools-ի, CMake-ի և շարունակական ինտեգրման համակարգերի բարելավված կառուցման սցենարներ:
Source: opennet.ru