Vydání systému rozpoznávání textu Tesseract 4.1

Připravený uvolnění systému optického rozpoznávání textu Tesseract 4.1, podporující rozpoznávání znaků a textů UTF-8 ve více než 100 jazycích, včetně ruštiny, kazaštiny, běloruštiny a ukrajinštiny. Výsledek lze uložit jako prostý text nebo ve formátech HTML (hOCR), ALTO (XML), PDF a TSV. Systém původně vznikl v letech 1985-1995 v laboratoři Hewlett Packard, v roce 2005 byl kód otevřen pod licencí Apache a byl dále vyvíjen za účasti zaměstnanců Google. Zdroje projektu šíření licencováno pod Apache 2.0.

Tesseract obsahuje obslužný program konzoly a knihovnu libtesseract pro vkládání funkcí OCR do jiných aplikací. Od třetích stran, které podporují Tesseract GUI rozhraní můžete poznamenat gImageReader, VietOCR и YAGF. Jsou nabízeny dva rozpoznávací stroje: klasický, který rozpoznává text na úrovni jednotlivých vzorů znaků, a nový založený na použití systému strojového učení založeného na rekurentní neuronové síti LSTM, optimalizovaný pro rozpoznávání celých řetězců a umožňující výrazné zvýšení přesnosti. Vycházejí hotové trénované modely pro 123 jazyků. Pro optimalizaci výkonu jsou nabízeny moduly využívající OpenMP a instrukce SIMD AVX2, AVX nebo SSE4.1.

hlavní vylepšení v Tesseract 4.1:

  • Přidána možnost výstupu ve formátu XML HIGH (Analyzované rozvržení a textový objekt). Chcete-li použít tento formát, měli byste spustit aplikaci jako „název_obrázku tessaract alt výstupní_adresář“;
  • Přidány nové vykreslovací moduly LSTMBox a WordStrBox, které zjednodušují školení motoru;
  • Přidána podpora pseudografiky ve výstupu hOCR (HTML);
  • Přidány alternativní skripty napsané v Pythonu pro trénování enginu založeného na strojovém učení;
  • Rozšířené optimalizace pomocí instrukcí AVX, AVX2 a SSE;
  • Podpora OpenMP je ve výchozím nastavení zakázána z důvodu проблем s produktivitou;
  • Přidána podpora bílých a černých listin v enginu LSTM;
  • Vylepšené sestavovací skripty založené na Cmake.

Zdroj: opennet.ru

Přidat komentář