Izdanje Tesseract 4.1 sistema za prepoznavanje teksta

Pripremljeno izdavanje optičkog sistema za prepoznavanje teksta Teseract 4.1, podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može sačuvati u običnom tekstu ili u HTML (hOCR), ALTO (XML), PDF i TSV formatima. Sistem je prvobitno kreiran 1985-1995 u laboratoriji Hewlett Packard, a 2005. godine kod je otvoren pod licencom Apache i dalje je razvijen uz učešće Google zaposlenih. Izvori projekta širenje licenciran pod Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugrađivanje OCR funkcionalnosti u druge aplikacije. Od trećih strana koje podržavaju Tesseract GUI interfejsi možete primetiti gImageReader, VietOCR и YAGF. Ponuđena su dva motora za prepoznavanje: klasični koji prepoznaje tekst na nivou pojedinačnih znakovnih obrazaca i novi zasnovan na korišćenju sistema mašinskog učenja zasnovanog na LSTM rekurentnoj neuronskoj mreži, optimizovan za prepoznavanje čitavih nizova i omogućava značajno povećanje tačnosti. Gotovi obučeni modeli se objavljuju za 123 jezika. Za optimizaciju performansi, ponuđeni su moduli koji koriste OpenMP i AVX2, AVX ili SSE4.1 SIMD instrukcije.

Glavni poboljšanja u Tesseractu 4.1:

  • Dodata mogućnost izlaza u XML formatu ALTO (Analizirani izgled i tekstualni objekat). Da biste koristili ovaj format, trebate pokrenuti aplikaciju kao “tessaract image_name alto output_dir”;
  • Dodani novi moduli za renderiranje LSTMBox i WordStrBox, pojednostavljujući obuku motora;
  • Dodata podrška za pseudografiju u hOCR (HTML) izlazu;
  • Dodane alternativne skripte napisane u Pythonu za obuku motora zasnovanog na mašinskom učenju;
  • Proširene optimizacije pomoću AVX, AVX2 i SSE instrukcija;
  • Podrška za OpenMP je podrazumevano onemogućena zbog problemi sa produktivnošću;
  • Dodata podrška za bijele i crne liste u LSTM motoru;
  • Poboljšane skripte za izgradnju zasnovane na Cmakeu.

izvor: opennet.ru

Dodajte komentar