Llançament del sistema de reconeixement de text Tesseract 5.0

S'ha publicat el llançament del sistema de reconeixement òptic de text Tesseract 4.1, que admet el reconeixement de caràcters i textos UTF-8 en més de 100 idiomes, inclosos el rus, el kazakh, el bielorús i l'ucraïnès. El resultat es pot desar tant en text clar com en formats HTML (hOCR), ALTO (XML), PDF i TSV. Inicialment, el sistema es va crear el 1985-1995 al laboratori de Hewlett Packard, el 2005 el codi es va obrir amb la llicència Apache i es va desenvolupar encara més amb la participació dels empleats de Google. Els textos font del projecte es distribueixen sota la llicència Apache 2.0.

Tesseract inclou una utilitat de consola i la biblioteca libtesseract per incrustar la funcionalitat OCR en altres aplicacions. Les GUI de tercers que admeten Tesseract inclouen gImageReader, VietOCR i YAGF. Es proposen dos motors de reconeixement: un de clàssic que reconeix el text a nivell de patrons de caràcters individuals, i un de nou basat en l'ús d'un sistema d'aprenentatge automàtic basat en una xarxa neuronal recurrent LSTM, optimitzada per al reconeixement de línies senceres i que permet augment significatiu de la precisió. S'han publicat models preparats per a 123 idiomes. Per optimitzar el rendiment, s'ofereixen mòduls que utilitzen instruccions OpenMP i SIMD AVX2, AVX, NEON o SSE4.1.

Millores clau a Tesseract 5.0:

  • El canvi significatiu del número de versió es deu als canvis a l'API que trenquen la compatibilitat. En particular, l'API libtesseract disponible públicament ja no està vinculada als tipus de dades propietaris GenericVector i STRING, en lloc dels quals s'utilitzen std::string i std::vector al codi.
  • L'arbre d'origen s'ha reorganitzat. Els fitxers de capçalera públics s'han mogut al directori include/tesseract.
  • S'ha redissenyat la gestió de la memòria, totes les trucades a malloc i gratuïtes s'han substituït per codi C++. S'ha dut a terme una actualització general del codi.
  • S'han afegit optimitzacions per a arquitectures ARM i ARM64, les instruccions ARM NEON s'utilitzen per accelerar els càlculs. Optimització general del rendiment per a totes les arquitectures.
  • S'han implementat nous modes d'entrenament de models i reconeixement de text, basats en l'ús de càlculs de coma flotant. Els nous modes es caracteritzen per un major rendiment i un consum de memòria reduït. Al motor LSTM, el mode ràpid float32 està habilitat per defecte.
  • S'ha fet la transició a l'ús de la normalització Unicode mitjançant el formulari NFC (Normalization Form Canonical).
  • S'ha afegit una opció per configurar el detall del registre (-loglevel).
  • S'ha redissenyat el sistema de muntatge basat en Autotools, que s'ha passat a muntatge en mode no recursiu.
  • La branca "mestra" de Git s'ha canviat de nom a "principal".
  • S'ha afegit suport per a nous llançaments de sistemes macOS i Apple basats en el xip M1.

    Font: opennet.ru

Afegeix comentari