Rilascio del sistema di riconoscimento del testo Tesseract 4.1

Preparato rilascio del sistema di riconoscimento ottico del testo Tesseract 4.1, che supporta il riconoscimento di caratteri e testi UTF-8 in più di 100 lingue, tra cui russo, kazako, bielorusso e ucraino. Il risultato può essere salvato in testo semplice o nei formati HTML (hOCR), ALTO (XML), PDF e TSV. Il sistema è stato originariamente creato nel 1985-1995 nel laboratorio Hewlett Packard, nel 2005 il codice è stato aperto sotto la licenza Apache e ulteriormente sviluppato con la partecipazione dei dipendenti di Google. Fonti del progetto diffusione concesso in licenza con Apache 2.0.

Tesseract include un'utilità console e la libreria libtesseract per incorporare la funzionalità OCR in altre applicazioni. Da terze parti che supportano Tesseract Interfacce GUI puoi notare gImageReader, VietnamOCR и YAGF. Vengono offerti due motori di riconoscimento: uno classico che riconosce il testo a livello di singoli pattern di caratteri, ed uno nuovo basato sull'utilizzo di un sistema di machine learning basato su una rete neurale ricorrente LSTM, ottimizzato per riconoscere intere stringhe e consentire un aumento significativo della precisione. Vengono pubblicati modelli addestrati già pronti per 123 lingue. Per ottimizzare le prestazioni, vengono offerti moduli che utilizzano istruzioni OpenMP e AVX2, AVX o SSE4.1 SIMD.

Il principale miglioramenti nel Tesseract 4.1:

  • Aggiunta la possibilità di produrre output in formato XML ALTA (Layout analizzato e oggetto testo). Per utilizzare questo formato, è necessario eseguire l'applicazione come “tessaract image_name alto output_dir”;
  • Aggiunti nuovi moduli di rendering LSTMBox e WordStrBox, semplificando l'addestramento del motore;
  • Aggiunto supporto per la pseudografia nell'output hOCR (HTML);
  • Aggiunti script alternativi scritti in Python per il training del motore basato sul machine learning;
  • Ottimizzazioni estese utilizzando le istruzioni AVX, AVX2 e SSE;
  • Il supporto OpenMP è disabilitato per impostazione predefinita a causa di проблем con la produttività;
  • Aggiunto supporto per liste bianche e nere nel motore LSTM;
  • Script di compilazione migliorati basati su Cmake.

Fonte: opennet.ru

Aggiungi un commento