Izdanje sustava za prepoznavanje teksta Tesseract 4.1

Pripremljeno izdanje sustava za optičko prepoznavanje teksta Teserakt 4.1, podržavajući prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može spremiti u običnom tekstu ili u formatima HTML (hOCR), ALTO (XML), PDF i TSV. Sustav je izvorno nastao 1985.-1995. u laboratoriju Hewlett Packarda, a 2005. kod je otvoren pod licencom Apache i dalje je razvijan uz sudjelovanje zaposlenika Googlea. Izvori projekta širenje licenciran pod Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugradnju OCR funkcionalnosti u druge aplikacije. Od trećih strana koje podržavaju Tesseract GUI sučelja možete primijetiti gImageReader, VietOCR и YAGF. U ponudi su dva mehanizma za prepoznavanje: klasični koji prepoznaje tekst na razini pojedinačnih znakovnih uzoraka i novi koji se temelji na korištenju sustava strojnog učenja koji se temelji na LSTM rekurentnoj neuronskoj mreži, optimiziran za prepoznavanje cijelih nizova i omogućava značajno povećanje točnosti. Gotovi obučeni modeli objavljuju se za 123 jezika. Za optimizaciju performansi nude se moduli koji koriste OpenMP i AVX2, AVX ili SSE4.1 SIMD upute.

Glavni poboljšanja u Tesseractu 4.1:

  • Dodana mogućnost ispisa u XML formatu VISOKO (Analizirani izgled i tekstualni objekt). Da biste koristili ovaj format, trebali biste pokrenuti aplikaciju kao “tessaract image_name alto output_dir”;
  • Dodani novi moduli za renderiranje LSTMBox i WordStrBox, pojednostavljujući obuku motora;
  • Dodana podrška za pseudografiju u hOCR (HTML) izlazu;
  • Dodane alternativne skripte napisane u Pythonu za obuku motora na temelju strojnog učenja;
  • Proširene optimizacije korištenjem AVX, AVX2 i SSE uputa;
  • Podrška za OpenMP onemogućena je prema zadanim postavkama zbog problem s produktivnošću;
  • Dodana podrška za bijele i crne liste u LSTM motoru;
  • Poboljšane skripte za izradu temeljene na Cmakeu.

Izvor: opennet.ru

Dodajte komentar