Vydání systému rozpoznávání textu Tesseract 5.2

Bylo zveřejněno vydání systému optického rozpoznávání textu Tesseract 5.2, který podporuje rozpoznávání znaků a textů UTF-8 ve více než 100 jazycích, včetně ruštiny, kazaštiny, běloruštiny a ukrajinštiny. Výsledek lze uložit jak v čistém textu, tak ve formátech HTML (hOCR), ALTO (XML), PDF a TSV. Zpočátku byl systém vytvořen v letech 1985-1995 v laboratoři Hewlett Packard, v roce 2005 byl kód otevřen pod licencí Apache a dále rozvíjen za účasti zaměstnanců Google. Zdrojové texty projektu jsou šířeny pod licencí Apache 2.0.

Tesseract obsahuje obslužný program konzoly a knihovnu libtesseract pro vkládání funkcí OCR do jiných aplikací. Mezi GUI rozhraní třetích stran, která podporují Tesseract, patří gImageReader, VietOCR a YAGF. Jsou nabízeny dva rozpoznávací stroje: klasický, který rozpoznává text na úrovni jednotlivých vzorů znaků, a nový založený na použití systému strojového učení založeného na rekurentní neuronové síti LSTM, optimalizovaný pro rozpoznávání celých řetězců a umožňující výrazné zvýšení přesnosti. Hotové trénované modely byly publikovány pro 123 jazyků. Pro optimalizaci výkonu jsou nabízeny moduly využívající OpenMP a SIMD instrukce AVX2, AVX, AVX512F, NEON nebo SSE4.1.

Klíčová vylepšení v Tesseract 5.2:

  • Přidány optimalizace implementované pomocí instrukcí Intel AVX512F.
  • C API implementuje funkci pro inicializaci tesseract načítáním modelu strojového učení z paměti.
  • Přidán parametr invert_threshold, který určuje úroveň inverze textových řetězců. Výchozí hodnota je 0.7. Chcete-li inverzi zakázat, nastavte hodnotu na 0.
  • Vylepšené zpracování velmi velkých dokumentů na 32bitových hostitelích.
  • Přechod byl proveden z použití funkcí std::regex na std::string.
  • Vylepšené sestavovací skripty pro Autotools, CMake a systémy průběžné integrace.

    Zdroj: opennet.ru

Přidat komentář