Izdanje Tesseract 5.1 sistema za prepoznavanje teksta

Objavljeno je izdanje Tesseract 5.1 optičkog sistema za prepoznavanje teksta, koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može sačuvati u običnom tekstu ili u HTML (hOCR), ALTO (XML), PDF i TSV formatima. Sistem je prvobitno kreiran 1985-1995 u laboratoriji Hewlett Packard, a 2005. godine kod je otvoren pod licencom Apache i dalje je razvijen uz učešće Google zaposlenih. Izvorni kod projekta se distribuira pod licencom Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugrađivanje OCR funkcionalnosti u druge aplikacije. GUI interfejsi treće strane koji podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. Nude se dva motora za prepoznavanje: klasični koji prepoznaje tekst na nivou pojedinačnih znakovnih obrazaca i novi zasnovan na korišćenju sistema mašinskog učenja zasnovanog na LSTM rekurentnoj neuronskoj mreži, optimizovan za prepoznavanje čitavih nizova i omogućava značajno povećanje tačnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi, nude se moduli koji koriste OpenMP i SIMD instrukcije AVX2, AVX, NEON ili SSE4.1.

Glavna poboljšanja u Tesseractu 5.1:

  • Implementirana je mogućnost obrade područja sa slikama i linijama pri izlazu u ALTO, hOCR i tekstualnim formatima.
  • Dodan novi parametar curl_timeout lkz curl_easy_setop.
  • Poboljšan sistem izgradnje.
  • Radovi su obavljeni na uklanjanju neiskorištenog koda
  • Popravljeni padovi uzrokovani nepravilnim rukovanjem nul pokazivačima u klasi PageIterator::Orientation.

izvor: opennet.ru

Dodajte komentar