Izdanje sustava za prepoznavanje teksta Tesseract 5.0

Objavljeno je izdanje sustava za optičko prepoznavanje teksta Tesseract 4.1 koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može spremiti u običnom tekstu ili u formatima HTML (hOCR), ALTO (XML), PDF i TSV. Sustav je izvorno nastao 1985.-1995. u laboratoriju Hewlett Packarda, a 2005. kod je otvoren pod licencom Apache i dalje je razvijan uz sudjelovanje zaposlenika Googlea. Izvorni kod projekta distribuira se pod licencom Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugradnju OCR funkcionalnosti u druge aplikacije. GUI sučelja trećih strana koja podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. U ponudi su dva mehanizma za prepoznavanje: klasični koji prepoznaje tekst na razini pojedinačnih znakovnih uzoraka i novi koji se temelji na korištenju sustava strojnog učenja koji se temelji na LSTM rekurentnoj neuronskoj mreži, optimiziran za prepoznavanje čitavih nizova i omogućava značajno povećanje točnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi nude se moduli koji koriste OpenMP i SIMD upute AVX2, AVX, NEON ili SSE4.1.

Glavna poboljšanja u Tesseractu 5.0:

  • Značajna promjena u broju verzije nastala je zbog promjena API-ja koje prekidaju kompatibilnost. Konkretno, javno dostupni libtesseract API više nije povezan s vlasničkim tipovima podataka GenericVector i STRING, u korist std::string i std::vector.
  • Stablo izvornog teksta je reorganizirano. Javne datoteke zaglavlja premještene su u direktorij include/tesseract.
  • Upravljanje memorijom je redizajnirano, svi malloc i besplatni pozivi zamijenjeni su C++ kodom. Provedena je generalna modernizacija koda.
  • Dodane su optimizacije za ARM i ARM64 arhitekture; ARM NEON upute se koriste za ubrzanje izračuna. Provedena je optimizacija performansi zajednička svim arhitekturama.
  • Implementirani su novi načini za modele obuke i prepoznavanje teksta koji se temelje na korištenju izračuna s pomičnim zarezom. Novi načini rada nude bolje performanse i manju potrošnju memorije. U LSTM motoru brzi način rada float32 omogućen je prema zadanim postavkama.
  • Izvršen je prijelaz na korištenje Unicode normalizacije pomoću NFC (Normalization Form Canonical) obrasca.
  • Dodana opcija za konfiguriranje detalja dnevnika (--loglevel).
  • Sustav izrade temeljen na Autotools je redizajniran i prebačen na izgradnju u nerekurzivnom načinu rada.
  • Grana "master" u Gitu preimenovana je u "main".
  • Dodana podrška za nova izdanja macOS i Apple sustava temeljenih na M1 čipu.

    Izvor: opennet.ru

Dodajte komentar