Izdanje sustava za prepoznavanje teksta Tesseract 5.3.4

Objavljeno je izdanje sustava za optičko prepoznavanje teksta Tesseract 5.3.4 koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može spremiti u običnom tekstu ili u formatima HTML (hOCR), ALTO (XML), PDF i TSV. Sustav je izvorno nastao 1985.-1995. u laboratoriju Hewlett Packarda, a 2005. kod je otvoren pod licencom Apache i dalje je razvijan uz sudjelovanje zaposlenika Googlea. Izvorni kod projekta distribuira se pod licencom Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugradnju OCR funkcionalnosti u druge aplikacije. GUI sučelja trećih strana koja podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. U ponudi su dva mehanizma za prepoznavanje: klasični koji prepoznaje tekst na razini pojedinačnih znakovnih uzoraka i novi koji se temelji na korištenju sustava strojnog učenja koji se temelji na LSTM rekurentnoj neuronskoj mreži, optimiziran za prepoznavanje čitavih nizova i omogućava značajno povećanje točnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi nude se moduli koji koriste OpenMP i SIMD upute AVX2, AVX, AVX512F, NEON ili SSE4.1.

Glavna poboljšanja:

  • Poboljšano prepoznavanje slike prema URL-u s preuzimanjem datoteke pomoću biblioteke libcurl. Prilikom učitavanja postavlja se zaglavlje User-Agent. Dodan je novi parametar curl_cookiefile za korištenje datoteke kolačića.
  • Poslužitelj ScrollView koristi TCP kao preferirani protokol.
  • Kada koristite naredbu "combine_tessdata -d", izlaz se daje u stdout umjesto u stderr.
  • Riješeni problemi s izgradnjom pri korištenju autoconf i clang.

Izvor: opennet.ru

Dodajte komentar