Izid sistema za prepoznavanje besedila Tesseract 5.0

Objavljena je bila izdaja sistema za optično prepoznavanje besedila Tesseract 4.1, ki podpira prepoznavanje znakov in besedil UTF-8 v več kot 100 jezikih, vključno z ruskim, kazahstanskim, beloruskim in ukrajinskim. Rezultat lahko shranite v navadnem besedilu ali v formatih HTML (hOCR), ALTO (XML), PDF in TSV. Sistem je bil prvotno ustvarjen v letih 1985-1995 v laboratoriju Hewlett Packard, leta 2005 je bila koda odprta pod licenco Apache in je bila nadalje razvita s sodelovanjem Googlovih zaposlenih. Izvorna koda projekta se distribuira pod licenco Apache 2.0.

Tesseract vključuje konzolni pripomoček in knjižnico libtesseract za vdelavo funkcij OCR v druge aplikacije. Vmesniki GUI drugih proizvajalcev, ki podpirajo Tesseract, vključujejo gImageReader, VietOCR in YAGF. Na voljo sta dva mehanizma za prepoznavanje: klasični, ki prepozna besedilo na ravni posameznih znakovnih vzorcev, in novi, ki temelji na uporabi sistema strojnega učenja, ki temelji na ponavljajočem se nevronskem omrežju LSTM, optimiziran za prepoznavanje celotnih nizov in omogoča znatno povečanje natančnosti. Pripravljeni usposobljeni modeli so bili objavljeni za 123 jezikov. Za optimizacijo zmogljivosti so na voljo moduli, ki uporabljajo navodila OpenMP in SIMD AVX2, AVX, NEON ali SSE4.1.

Glavne izboljšave v Tesseract 5.0:

  • Pomembna sprememba številke različice je posledica sprememb API-ja, ki motijo ​​združljivost. Zlasti javno dostopni API libtesseract ni več vezan na lastniška podatkovna tipa GenericVector in STRING, v korist std::string in std::vector.
  • Drevo izvornega besedila je bilo reorganizirano. Javne datoteke glave so bile premaknjene v imenik include/tesseract.
  • Upravljanje pomnilnika je bilo na novo oblikovano, vsi malloc in brezplačni klici so bili nadomeščeni s kodo C++. Izvedena je bila splošna posodobitev kode.
  • Dodane optimizacije za arhitekturi ARM in ARM64; za pospešitev izračunov se uporabljajo navodila ARM NEON. Izvedena je bila optimizacija zmogljivosti, ki je skupna vsem arhitekturam.
  • Uvedeni so bili novi načini za modele usposabljanja in prepoznavanje besedila, ki temeljijo na uporabi izračunov s plavajočo vejico. Novi načini ponujajo večjo zmogljivost in manjšo porabo pomnilnika. V motorju LSTM je hitri način float32 privzeto omogočen.
  • Izveden je bil prehod na uporabo normalizacije Unicode z uporabo oblike NFC (Normalization Form Canonical).
  • Dodana možnost za konfiguracijo podrobnosti dnevnika (--loglevel).
  • Sistem gradnje, ki temelji na Autotools, je bil preoblikovan in preklopljen na gradnjo v nerekurzivnem načinu.
  • Veja »master« v Gitu je bila preimenovana v »main«.
  • Dodana podpora za nove izdaje sistemov macOS in Apple, ki temeljijo na čipu M1.

    Vir: opennet.ru

Dodaj komentar