Vrystelling van die teksherkenningstelsel Tesseract 5.0

Die vrystelling van die Tesseract 4.1 optiese teksherkenningstelsel is gepubliseer, wat herkenning van UTF-8 karakters en tekste in meer as 100 tale ondersteun, insluitend Russies, Kazaks, Wit-Russies en Oekraïens. Die resultaat kan in duidelike teks en in HTML (hOCR), ALTO (XML), PDF en TSV formate gestoor word. Aanvanklik is die stelsel in 1985-1995 in die laboratorium van Hewlett Packard geskep, in 2005 is die kode onder die Apache-lisensie geopen en verder ontwikkel met die deelname van Google-werknemers. Die brontekste van die projek word onder die Apache 2.0-lisensie versprei.

Tesseract bevat 'n konsole-hulpmiddel en die libtesseract-biblioteek vir die inbedding van OCR-funksies in ander toepassings. Tesseract-ondersteunende derdeparty-GUI's sluit gImageReader, VietOCR en YAGF in. Twee herkenningsenjins word voorgestel: 'n klassieke een wat teks op die vlak van individuele karakterpatrone herken, en 'n nuwe een gebaseer op die gebruik van 'n masjienleerstelsel gebaseer op 'n herhalende neurale netwerk LSTM, geoptimaliseer vir herkenning van hele lyne en wat 'n aansienlike toename in akkuraatheid. Gereed-opgeleide modelle is vir 123 tale gepubliseer. Om werkverrigting te optimaliseer, word modules aangebied wat OpenMP- en SIMD-instruksies AVX2, AVX, NEON of SSE4.1 gebruik.

Sleutelverbeterings in Tesseract 5.0:

  • Die beduidende weergawenommerverandering is te wyte aan veranderinge aan die API wat verenigbaarheid verbreek. In die besonder, die publiek beskikbare libtesseract API is nie meer gekoppel aan die eie datatipes GenericVector en STRING nie, in plaas daarvan wat std::string en std::vector in die kode gebruik word.
  • Die bronboom is herorganiseer. Die publieke koplêers is na die include/tesseract-gids geskuif.
  • Geheuebestuur is herontwerp, alle oproepe na malloc en gratis is met C++-kode vervang. 'n Algemene kode-opgradering is uitgevoer.
  • Bygevoegde optimaliserings vir ARM- en ARM64-argitekture, ARM NEON-instruksies word gebruik om berekeninge te bespoedig. Algemene werkverrigtingoptimalisering vir alle argitekture uitgevoer.
  • Nuwe maniere van modelopleiding en teksherkenning geïmplementeer, gebaseer op die gebruik van swaaipuntberekeninge. Die nuwe modusse word gekenmerk deur hoër werkverrigting en verminderde geheueverbruik. In die LSTM-enjin is float32-vinnige modus by verstek geaktiveer.
  • Die oorgang na die gebruik van Unicode-normalisering met behulp van die NFC-vorm (Normalization Form Canonical) is gemaak.
  • Bygevoeg 'n opsie om log detail (-loglevel) op te stel.
  • Die samestellingstelsel gebaseer op Autotools is herontwerp, wat oorgeskakel is na samestelling in nie-rekursiewe modus.
  • Die 'meester'-tak in Git is hernoem na 'hoof'.
  • Bygevoeg ondersteuning vir nuwe vrystellings van macOS en Apple stelsels gebaseer op die M1 chip.

    Bron: opennet.ru

Voeg 'n opmerking