Testuak ezagutzeko sistemaren kaleratzea Tesseract 4.1

Prestatuta Testu optikoa ezagutzeko sistema askatzea Teseract 4.1, UTF-8 karaktereak eta testuak 100 hizkuntza baino gehiagotan aitortzea onartzen duena, errusiera, kazakhera, bielorrusiera eta ukrainera barne. Emaitza testu arruntean edo HTML (hOCR), ALTO (XML), PDF eta TSV formatuetan gorde daiteke. 1985-1995 urteetan sortu zen sistema Hewlett Packard laborategian; 2005ean, kodea Apache lizentziapean ireki zen eta Google-ko langileen parte-hartzearekin garatu zen. Proiektuaren iturriak barreiatu Apache 2.0 lizentziapean.

Tesseract-ek kontsola-erabilgarritasun bat eta libtesseract liburutegia barne hartzen ditu OCR funtzionalitatea beste aplikazio batzuetan txertatzeko. Tesseract onartzen duten hirugarrenen eskutik GUI interfazeak ohar dezakezu gImageReader, VietOCR ΠΈ YAGF. Bi ezagutze-motor eskaintzen dira: testua karaktere-eredu indibidualen mailan antzematen duen klasikoa, eta LSTM sare neuronal errecurrente batean oinarritutako ikaskuntza automatikoko sistema baten erabileran oinarritutako berria, kate osoak ezagutzeko optimizatua eta aukera ematen duena. zehaztasunaren igoera nabarmena. Prestatutako eredu trebatuak argitaratzen dira 123 hizkuntza. Errendimendua optimizatzeko, OpenMP eta AVX2, AVX edo SSE4.1 SIMD argibideak erabiltzen dituzten moduluak eskaintzen dira.

Nagusia hobekuntzak 4.1 testuan:

  • XML formatuan ateratzeko gaitasuna gehitu da HIGH (Aztertutako Diseinua eta Testu Objektua). Formatu hau erabiltzeko, aplikazioa exekutatu beharko zenuke "tessaract image_name alto output_dir" gisa;
  • LSTMBox eta WordStrBox errendatze modulu berriak gehitu dira, motorraren prestakuntza sinplifikatuz;
  • HOCR (HTML) irteeran pseudografien euskarria gehitu da;
  • Ikaskuntza automatikoan oinarritutako motorra entrenatzeko Python-en idatzitako script alternatiboak gehitu dira;
  • Optimizazio hedatuak AVX, AVX2 eta SSE argibideak erabiliz;
  • OpenMP laguntza lehenespenez desgaituta dago arazoak produktibitatearekin;
  • Zerrenda zuri eta beltzeko laguntza gehitu da LSTM motorra;
  • Cmake-n oinarritutako eraikitze-scriptak hobetuak.

Iturria: opennet.ru

Gehitu iruzkin berria