Vydání systému rozpoznávání textu Tesseract 5.1

Bylo zveřejněno vydání systému optického rozpoznávání textu Tesseract 5.1, který podporuje rozpoznávání znaků a textů UTF-8 ve více než 100 jazycích, včetně ruštiny, kazaštiny, běloruštiny a ukrajinštiny. Výsledek lze uložit jak v čistém textu, tak ve formátech HTML (hOCR), ALTO (XML), PDF a TSV. Zpočátku byl systém vytvořen v letech 1985-1995 v laboratoři Hewlett Packard, v roce 2005 byl kód otevřen pod licencí Apache a dále rozvíjen za účasti zaměstnanců Google. Zdrojové texty projektu jsou šířeny pod licencí Apache 2.0.

Tesseract obsahuje obslužný program konzoly a knihovnu libtesseract pro vkládání funkcí OCR do jiných aplikací. GUI třetích stran podporující Tesseract zahrnují gImageReader, VietOCR a YAGF. Jsou navrženy dva rozpoznávací stroje: klasický, který rozpoznává text na úrovni jednotlivých vzorů znaků, a nový založený na použití systému strojového učení založeného na rekurentní neuronové síti LSTM, optimalizovaný pro rozpoznávání celých řádků a umožňující výrazné zvýšení přesnosti. Hotové trénované modely byly publikovány pro 123 jazyků. Pro optimalizaci výkonu jsou nabízeny moduly využívající OpenMP a SIMD instrukce AVX2, AVX, NEON nebo SSE4.1.

Klíčová vylepšení v Tesseract 5.1:

  • Byla implementována schopnost zpracovávat oblasti s obrázky a čarami při výstupu ve formátech ALTO, hOCR a text.
  • Přidán nový parametr curl_timeout lkz curl_easy_setop.
  • Vylepšený systém sestavení.
  • Byly provedeny práce na odstranění nepoužívaného kódu
  • Opravena selhání způsobená nesprávným zpracováním nulových ukazatelů ve třídě PageIterator::Orientation.

Zdroj: opennet.ru

Přidat komentář