Vydanie systému rozpoznávania textu Tesseract 4.1

Pripravené uvoľnenie systému optického rozpoznávania textu Tesseract 4.1, podporujúce rozpoznávanie znakov a textov UTF-8 vo viac ako 100 jazykoch vrátane ruštiny, kazaštiny, bieloruštiny a ukrajinčiny. Výsledok je možné uložiť ako obyčajný text alebo vo formátoch HTML (hOCR), ALTO (XML), PDF a TSV. Systém pôvodne vznikol v rokoch 1985-1995 v laboratóriu Hewlett Packard, v roku 2005 bol kód otvorený pod licenciou Apache a ďalej sa vyvíjal za účasti zamestnancov Google. Zdroje projektu šírenie licencovaný pod Apache 2.0.

Tesseract obsahuje pomôcku konzoly a knižnicu libtesseract na zabudovanie funkcií OCR do iných aplikácií. Od tretích strán, ktoré podporujú Tesseract GUI rozhrania môžete poznamenať gImageReader, VietOCR и YAGF. Ponúkajú sa dva rozpoznávacie motory: klasický, ktorý rozpoznáva text na úrovni jednotlivých vzorov znakov, a nový založený na použití systému strojového učenia založeného na rekurentnej neurónovej sieti LSTM, optimalizovaný na rozpoznávanie celých reťazcov a umožňujúci výrazné zvýšenie presnosti. Vychádzajú hotové natrénované modely pre 123 jazykov. Pre optimalizáciu výkonu sú ponúkané moduly využívajúce OpenMP a inštrukcie SIMD AVX2, AVX alebo SSE4.1.

Hlavné vylepšenia v Tesseract 4.1:

  • Pridaná možnosť výstupu vo formáte XML HIGH (Analyzované rozloženie a textový objekt). Ak chcete použiť tento formát, mali by ste spustiť aplikáciu ako „názov_obrázka tessaract alto výstupný_adresár“;
  • Pridané nové vykresľovacie moduly LSTMBox a WordStrBox, ktoré zjednodušujú školenie motorov;
  • Pridaná podpora pre pseudografiku vo výstupe hOCR (HTML);
  • Pridané alternatívne skripty napísané v Pythone na trénovanie motora založeného na strojovom učení;
  • Rozšírené optimalizácie pomocou inštrukcií AVX, AVX2 a SSE;
  • Podpora OpenMP je predvolene vypnutá z dôvodu problémy s produktivitou;
  • Pridaná podpora pre biele a čierne listiny v motore LSTM;
  • Vylepšené zostavovacie skripty založené na Cmake.

Zdroj: opennet.ru

Pridať komentár