Պատրաստված տեքստի ճանաչման օպտիկական համակարգի թողարկում Tesseract 4.1, աջակցում է UTF-8 նիշերի և տեքստերի ճանաչմանը ավելի քան 100 լեզուներով, այդ թվում՝ ռուսերեն, ղազախերեն, բելառուսերեն և ուկրաիներեն: Արդյունքը կարող է պահպանվել պարզ տեքստով կամ HTML (hOCR), ALTO (XML), PDF և TSV ձևաչափերով: Համակարգն ի սկզբանե ստեղծվել է 1985-1995 թվականներին Hewlett Packard լաբորատորիայում, 2005 թվականին կոդը բացվել է Apache լիցենզիայի ներքո և հետագայում մշակվել Google-ի աշխատակիցների մասնակցությամբ: Ծրագրի աղբյուրները տարածվել լիցենզավորված Apache 2.0-ի համաձայն:
Tesseract-ը ներառում է կոնսոլային կոմունալ ծրագիր և libtesseract գրադարան՝ OCR ֆունկցիոնալությունը այլ հավելվածներում ներկառուցելու համար: Երրորդ կողմերից, որոնք աջակցում են Tesseract-ին GUI միջերեսներ կարող եք նշել gImageReader, VietOCR и ՅԱԳՖ. Առաջարկվում են երկու ճանաչման շարժիչներ. դասականը, որը ճանաչում է տեքստը առանձին նիշերի օրինաչափությունների մակարդակով, և նորը, որը հիմնված է LSTM պարբերական նեյրոնային ցանցի վրա հիմնված մեքենայական ուսուցման համակարգի օգտագործման վրա, որը օպտիմիզացված է ամբողջ տողերը ճանաչելու և թույլ տալու համար: ճշգրտության զգալի աճ: համար հրապարակվում են պատրաստի պատրաստված մոդելներ 123 լեզու. Գործողությունը օպտիմալացնելու համար առաջարկվում են OpenMP և AVX2, AVX կամ SSE4.1 SIMD հրահանգներ օգտագործող մոդուլներ:
Ավելացվեց XML ձևաչափով ելքի հնարավորություն HIGH (Վերլուծված դասավորությունը և տեքստի օբյեկտը): Այս ձևաչափն օգտագործելու համար դուք պետք է գործարկեք հավելվածը որպես «tessaract image_name alto output_dir»;
Ավելացվել է նոր մատուցման մոդուլներ LSTMBox և WordStrBox՝ հեշտացնելով շարժիչի ուսուցումը;
hOCR (HTML) ելքում ավելացված է կեղծոգրաֆիայի աջակցություն;
Ավելացվել են Python-ում գրված այլընտրանքային սցենարներ՝ շարժիչի ուսուցման համար՝ հիմնված մեքենայական ուսուցման վրա.
Ընդլայնված օպտիմալացումներ՝ օգտագործելով AVX, AVX2 և SSE հրահանգները;
OpenMP-ի աջակցությունը լռելյայն անջատված է, քանի որ խնդիրներ արտադրողականությամբ;
Ավելացվել է սպիտակ և սև ցուցակների աջակցություն LSTM շարժիչում;
Բարելավված կառուցման սցենարներ՝ հիմնված Cmake-ի վրա: