Izid sistema za prepoznavanje besedila Tesseract 5.1

Objavljena je bila izdaja sistema za optično prepoznavanje besedila Tesseract 5.1, ki podpira prepoznavanje znakov in besedil UTF-8 v več kot 100 jezikih, vključno z ruskim, kazahstanskim, beloruskim in ukrajinskim. Rezultat lahko shranite v navadnem besedilu ali v formatih HTML (hOCR), ALTO (XML), PDF in TSV. Sistem je bil prvotno ustvarjen v letih 1985-1995 v laboratoriju Hewlett Packard, leta 2005 je bila koda odprta pod licenco Apache in je bila nadalje razvita s sodelovanjem Googlovih zaposlenih. Izvorna koda projekta se distribuira pod licenco Apache 2.0.

Tesseract vključuje konzolni pripomoček in knjižnico libtesseract za vdelavo funkcij OCR v druge aplikacije. Vmesniki GUI drugih proizvajalcev, ki podpirajo Tesseract, vključujejo gImageReader, VietOCR in YAGF. Na voljo sta dva mehanizma za prepoznavanje: klasični, ki prepozna besedilo na ravni posameznih znakovnih vzorcev, in novi, ki temelji na uporabi sistema strojnega učenja, ki temelji na ponavljajočem se nevronskem omrežju LSTM, optimiziran za prepoznavanje celotnih nizov in omogoča znatno povečanje natančnosti. Pripravljeni usposobljeni modeli so bili objavljeni za 123 jezikov. Za optimizacijo zmogljivosti so na voljo moduli, ki uporabljajo navodila OpenMP in SIMD AVX2, AVX, NEON ali SSE4.1.

Glavne izboljšave v Tesseract 5.1:

  • Izvedena je bila možnost obdelave območij s slikami in črtami pri izpisu v formatih ALTO, hOCR in besedilu.
  • Dodan nov parameter curl_timeout lkz curl_easy_setop.
  • Izboljšan sistem gradnje.
  • Opravljeno je bilo delo za odstranitev neuporabljene kode
  • Popravljene zrušitve, ki jih je povzročilo nepravilno ravnanje z ničelnimi kazalci v razredu PageIterator::Orientation.

Vir: opennet.ru

Dodaj komentar