Izid sistema za prepoznavanje besedila Tesseract 4.1

Pripravljeno izdaja sistema za optično prepoznavanje besedila Tesseract 4.1, ki podpira prepoznavanje znakov in besedil UTF-8 v več kot 100 jezikih, vključno z ruščino, kazahstanščino, beloruščino in ukrajinščino. Rezultat lahko shranite v navadnem besedilu ali v formatih HTML (hOCR), ALTO (XML), PDF in TSV. Sistem je bil prvotno ustvarjen v letih 1985-1995 v laboratoriju Hewlett Packard, leta 2005 je bila koda odprta pod licenco Apache in je bila nadalje razvita s sodelovanjem Googlovih zaposlenih. Projektni viri širjenje licenciran pod Apache 2.0.

Tesseract vključuje konzolni pripomoček in knjižnico libtesseract za vdelavo funkcij OCR v druge aplikacije. Od tretjih oseb, ki podpirajo Tesseract GUI vmesniki lahko opazite gImageReader, VietOCR и YAGF. Na voljo sta dva mehanizma za prepoznavanje: klasični, ki prepozna besedilo na ravni posameznih znakovnih vzorcev, in novi, ki temelji na uporabi sistema strojnega učenja, ki temelji na ponavljajočem se nevronskem omrežju LSTM, optimiziran za prepoznavanje celotnih nizov in omogoča znatno povečanje natančnosti. Objavljeni so pripravljeni usposobljeni modeli za 123 jezikov. Za optimizacijo delovanja so na voljo moduli, ki uporabljajo navodila OpenMP in AVX2, AVX ali SSE4.1 SIMD.

Glavni izboljšave v Tesseract 4.1:

  • Dodana možnost izpisa v formatu XML ALTO (Analizirana postavitev in besedilni objekt). Če želite uporabiti to obliko, morate aplikacijo zagnati kot »tessaract image_name alto output_dir«;
  • Dodani novi moduli upodabljanja LSTMBox in WordStrBox, ki poenostavljata usposabljanje motorja;
  • Dodana podpora za psevdografijo v izpisu hOCR (HTML);
  • Dodani alternativni skripti, napisani v Pythonu za usposabljanje motorja na podlagi strojnega učenja;
  • Razširjene optimizacije z uporabo navodil AVX, AVX2 in SSE;
  • Podpora za OpenMP je privzeto onemogočena zaradi težave s produktivnostjo;
  • Dodana podpora za bele in črne sezname v motorju LSTM;
  • Izboljšani skripti za gradnjo, ki temeljijo na Cmake.

Vir: opennet.ru

Dodaj komentar