Տեքստի ճանաչման համակարգի թողարկում Tesseract 5.3.4

Հրապարակվել է Tesseract 5.3.4 օպտիկական տեքստի ճանաչման համակարգի թողարկումը, որն աջակցում է UTF-8 նիշերի և տեքստերի ճանաչմանը ավելի քան 100 լեզուներով, այդ թվում՝ ռուսերեն, ղազախերեն, բելառուսերեն և ուկրաիներեն: Արդյունքը կարող է պահպանվել պարզ տեքստով կամ HTML (hOCR), ALTO (XML), PDF և TSV ձևաչափերով: Համակարգն ի սկզբանե ստեղծվել է 1985-1995 թվականներին Hewlett Packard լաբորատորիայում, 2005 թվականին կոդը բացվել է Apache լիցենզիայի ներքո և հետագայում մշակվել Google-ի աշխատակիցների մասնակցությամբ։ Նախագծի սկզբնական կոդը տարածվում է Apache 2.0 լիցենզիայի ներքո:

Tesseract-ը ներառում է կոնսոլային կոմունալ ծրագիր և libtesseract գրադարան՝ OCR ֆունկցիոնալությունը այլ հավելվածներում ներկառուցելու համար: Երրորդ կողմի GUI միջերեսները, որոնք աջակցում են Tesseract-ին, ներառում են gImageReader, VietOCR և YAGF: Առաջարկվում են երկու ճանաչման շարժիչներ. դասականը, որը ճանաչում է տեքստը առանձին նիշերի օրինաչափությունների մակարդակով, և նորը, որը հիմնված է LSTM պարբերական նեյրոնային ցանցի վրա հիմնված մեքենայական ուսուցման համակարգի օգտագործման վրա, որը օպտիմիզացված է ամբողջ տողերը ճանաչելու և թույլ տալու համար: ճշգրտության զգալի աճ: Պատրաստի վարժեցված մոդելները հրատարակվել են 123 լեզուների համար։ Գործողությունը օպտիմալացնելու համար առաջարկվում են OpenMP և SIMD հրահանգներ AVX2, AVX, AVX512F, NEON կամ SSE4.1 օգտագործող մոդուլներ:

Հիմնական բարելավումներ.

  • Բարելավված պատկերի ճանաչումը URL-ով` ֆայլի ներբեռնմամբ` օգտագործելով libcurl գրադարանը: Բեռնելիս սահմանվում է User-Agent վերնագիրը: Ավելացվեց curl_cookiefile նոր պարամետր՝ թխուկ ֆայլ օգտագործելու համար:
  • ScrollView սերվերը օգտագործում է TCP որպես իր նախընտրելի արձանագրություն:
  • «combine_tessdata -d» հրամանն օգտագործելիս ելքը տրամադրվում է stdout-ին stderr-ի փոխարեն:
  • Հաստատվել են կառուցման խնդիրները, երբ օգտագործում եք autoconf և cang:

Source: opennet.ru

Добавить комментарий