Izdanje Tesseract 5.0 sistema za prepoznavanje teksta

Objavljeno je izdanje Tesseract 4.1 optičkog sistema za prepoznavanje teksta, koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može sačuvati u običnom tekstu ili u HTML (hOCR), ALTO (XML), PDF i TSV formatima. Sistem je prvobitno kreiran 1985-1995 u laboratoriji Hewlett Packard, a 2005. godine kod je otvoren pod licencom Apache i dalje je razvijen uz učešće Google zaposlenih. Izvorni kod projekta se distribuira pod licencom Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugrađivanje OCR funkcionalnosti u druge aplikacije. GUI interfejsi treće strane koji podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. Nude se dva motora za prepoznavanje: klasični koji prepoznaje tekst na nivou pojedinačnih znakovnih obrazaca i novi zasnovan na korišćenju sistema mašinskog učenja zasnovanog na LSTM rekurentnoj neuronskoj mreži, optimizovan za prepoznavanje čitavih nizova i omogućava značajno povećanje tačnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi, nude se moduli koji koriste OpenMP i SIMD instrukcije AVX2, AVX, NEON ili SSE4.1.

Glavna poboljšanja u Tesseractu 5.0:

  • Značajna promjena u broju verzije je zbog promjena napravljenih u API-ju koje narušavaju kompatibilnost. Konkretno, javno dostupni libtesseract API više nije vezan za vlasničke tipove podataka GenericVector i STRING, u korist std::string i std::vector.
  • Izvorno stablo teksta je reorganizirano. Javne datoteke zaglavlja su premještene u direktorij include/tesseract.
  • Upravljanje memorijom je redizajnirano, svi malloc i besplatni pozivi zamijenjeni su C++ kodom. Izvršena je opšta modernizacija kodeksa.
  • Dodate optimizacije za ARM i ARM64 arhitekture; ARM NEON instrukcije se koriste za ubrzanje proračuna. Izvršena je optimizacija performansi zajednička za sve arhitekture.
  • Implementirani su novi načini za modele obuke i prepoznavanje teksta zasnovani na korištenju proračuna s pomičnim zarezom. Novi načini rada nude bolje performanse i manju potrošnju memorije. U LSTM motoru, float32 brzi način rada je omogućen prema zadanim postavkama.
  • Napravljen je prijelaz na korištenje Unicode normalizacije koristeći NFC (Normalization Form Canonical) formu.
  • Dodata opcija za konfigurisanje detalja dnevnika (--loglevel).
  • Sistem izgradnje zasnovan na Autotools-u je redizajniran i prebačen na izgradnju u nerekurzivnom načinu rada.
  • "Master" grana u Gitu je preimenovana u "main".
  • Dodata podrška za nova izdanja macOS-a i Apple sistema baziranih na M1 čipu.

    izvor: opennet.ru

Dodajte komentar