Izid sistema za prepoznavanje besedila Tesseract 5.2

Objavljena je bila izdaja sistema za optično prepoznavanje besedila Tesseract 5.2, ki podpira prepoznavanje znakov in besedil UTF-8 v več kot 100 jezikih, vključno z ruskim, kazahstanskim, beloruskim in ukrajinskim. Rezultat lahko shranite v navadnem besedilu ali v formatih HTML (hOCR), ALTO (XML), PDF in TSV. Sistem je bil prvotno ustvarjen v letih 1985-1995 v laboratoriju Hewlett Packard, leta 2005 je bila koda odprta pod licenco Apache in je bila nadalje razvita s sodelovanjem Googlovih zaposlenih. Izvorna koda projekta se distribuira pod licenco Apache 2.0.

Tesseract vključuje konzolni pripomoček in knjižnico libtesseract za vdelavo funkcij OCR v druge aplikacije. Vmesniki GUI drugih proizvajalcev, ki podpirajo Tesseract, vključujejo gImageReader, VietOCR in YAGF. Na voljo sta dva mehanizma za prepoznavanje: klasični, ki prepozna besedilo na ravni posameznih znakovnih vzorcev, in novi, ki temelji na uporabi sistema strojnega učenja, ki temelji na ponavljajočem se nevronskem omrežju LSTM, optimiziran za prepoznavanje celotnih nizov in omogoča znatno povečanje natančnosti. Pripravljeni usposobljeni modeli so bili objavljeni za 123 jezikov. Za optimizacijo delovanja so na voljo moduli, ki uporabljajo navodila OpenMP in SIMD AVX2, AVX, AVX512F, NEON ali SSE4.1.

Glavne izboljšave v Tesseract 5.2:

  • Dodane optimizacije, izvedene z navodili Intel AVX512F.
  • C API implementira funkcijo za inicializacijo teseracta z nalaganjem modela strojnega učenja iz pomnilnika.
  • Dodan parameter invert_threshold, ki določa stopnjo inverzije besedilnih nizov. Privzeta vrednost je 0.7. Če želite onemogočiti inverzijo, nastavite vrednost na 0.
  • Izboljšana obdelava zelo velikih dokumentov na 32-bitnih gostiteljih.
  • Izveden je bil prehod z uporabe funkcij std::regex na std::string.
  • Izboljšani gradbeni skripti za Autotools, CMake in sisteme za stalno integracijo.

    Vir: opennet.ru

Dodaj komentar