Izdanje sustava za prepoznavanje teksta Tesseract 5.1

Objavljeno je izdanje sustava za optičko prepoznavanje teksta Tesseract 5.1 koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može spremiti u običnom tekstu ili u formatima HTML (hOCR), ALTO (XML), PDF i TSV. Sustav je izvorno nastao 1985.-1995. u laboratoriju Hewlett Packarda, a 2005. kod je otvoren pod licencom Apache i dalje je razvijan uz sudjelovanje zaposlenika Googlea. Izvorni kod projekta distribuira se pod licencom Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugradnju OCR funkcionalnosti u druge aplikacije. GUI sučelja trećih strana koja podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. U ponudi su dva mehanizma za prepoznavanje: klasični koji prepoznaje tekst na razini pojedinačnih znakovnih uzoraka i novi koji se temelji na korištenju sustava strojnog učenja koji se temelji na LSTM rekurentnoj neuronskoj mreži, optimiziran za prepoznavanje čitavih nizova i omogućava značajno povećanje točnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi nude se moduli koji koriste OpenMP i SIMD upute AVX2, AVX, NEON ili SSE4.1.

Glavna poboljšanja u Tesseractu 5.1:

  • Implementirana je mogućnost obrade područja sa slikama i linijama pri ispisu u ALTO, hOCR i tekstualnim formatima.
  • Dodan novi parametar curl_timeout lkz curl_easy_setop.
  • Poboljšani sustav izrade.
  • Radilo se na uklanjanju neiskorištenog koda
  • Popravljena rušenja uzrokovana neispravnim rukovanjem nultim pokazivačima u klasi PageIterator::Orientation.

Izvor: opennet.ru

Dodajte komentar