Izdanje sustava za prepoznavanje teksta Tesseract 5.2

Objavljeno je izdanje sustava za optičko prepoznavanje teksta Tesseract 5.2 koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može spremiti u običnom tekstu ili u formatima HTML (hOCR), ALTO (XML), PDF i TSV. Sustav je izvorno nastao 1985.-1995. u laboratoriju Hewlett Packarda, a 2005. kod je otvoren pod licencom Apache i dalje je razvijan uz sudjelovanje zaposlenika Googlea. Izvorni kod projekta distribuira se pod licencom Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugradnju OCR funkcionalnosti u druge aplikacije. GUI sučelja trećih strana koja podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. U ponudi su dva mehanizma za prepoznavanje: klasični koji prepoznaje tekst na razini pojedinačnih znakovnih uzoraka i novi koji se temelji na korištenju sustava strojnog učenja koji se temelji na LSTM rekurentnoj neuronskoj mreži, optimiziran za prepoznavanje čitavih nizova i omogućava značajno povećanje točnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi nude se moduli koji koriste OpenMP i SIMD upute AVX2, AVX, AVX512F, NEON ili SSE4.1.

Glavna poboljšanja u Tesseractu 5.2:

  • Dodane optimizacije implementirane pomoću uputa Intel AVX512F.
  • C API implementira funkciju za inicijalizaciju teseracta s učitavanjem modela strojnog učenja iz memorije.
  • Dodan je parametar invert_threshold, koji određuje razinu inverzije tekstualnih nizova. Zadana vrijednost je 0.7. Da biste onemogućili inverziju, postavite vrijednost na 0.
  • Poboljšana obrada vrlo velikih dokumenata na 32-bitnim hostovima.
  • Prijelaz je napravljen s korištenja std::regex funkcija na std::string.
  • Poboljšane skripte za izgradnju za Autotools, CMake i sustave kontinuirane integracije.

    Izvor: opennet.ru

Dodajte komentar