Testuak ezagutzeko sistemaren kaleratzea Tesseract 5.0

Tesseract 4.1 testu optikoa ezagutzeko sistemaren kaleratzea argitaratu da, UTF-8 karaktereak eta testuak 100 hizkuntza baino gehiagotan aitortzea onartzen duena, errusiera, kazakhera, bielorrusiera eta ukrainera barne. Emaitza testu arruntean edo HTML (hOCR), ALTO (XML), PDF eta TSV formatuetan gorde daiteke. 1985-1995 urteetan sortu zen sistema Hewlett Packard laborategian; 2005ean, kodea Apache lizentziapean ireki zen eta Google-ko langileen parte-hartzearekin garatu zen. Proiektuaren iturburu kodea Apache 2.0 lizentziapean banatzen da.

Tesseract-ek kontsola-erabilgarritasun bat eta libtesseract liburutegia barne hartzen ditu OCR funtzionalitatea beste aplikazio batzuetan txertatzeko. Tesseract onartzen duten hirugarrenen GUI interfazeak gImageReader, VietOCR eta YAGF dira. Bi ezagutze-motor eskaintzen dira: testua karaktere-eredu indibidualen mailan antzematen duen klasikoa, eta berria, LSTM sare neuronal errecurrente batean oinarritutako ikaskuntza automatikoko sistema baten erabileran oinarritutakoa, kate osoak ezagutzeko optimizatua eta aukera ematen duena. zehaztasunaren igoera nabarmena. Prestatutako eredu trebatuak 123 hizkuntzatarako argitaratu dira. Errendimendua optimizatzeko, OpenMP eta SIMD instrukzioak AVX2, AVX, NEON edo SSE4.1 erabiltzen dituzten moduluak eskaintzen dira.

Hobekuntza nagusiak Tesseract 5.0-n:

  • Bertsio-zenbakiaren aldaketa nabarmena bateragarritasuna hausten duten APIan egindako aldaketengatik da. Bereziki, publikoki eskuragarri dagoen libtesseract APIa ez dago jada GenericVector eta STRING datu-mot jabedunekin lotuta, std::string eta std::vector-en alde.
  • Sorburu-testuaren zuhaitza berrantolatu da. Goiburuko fitxategi publikoak include/tesseract direktoriora eraman dira.
  • Memoria kudeaketa birmoldatu da, malloc eta doako dei guztiak C++ kodearekin ordezkatu dira. Kodearen modernizazio orokorra egin da.
  • ARM eta ARM64 arkitekturarako optimizazioak gehitu dira; ARM NEON argibideak erabiltzen dira kalkuluak bizkortzeko. Arkitektura guztietan komuna den errendimenduaren optimizazioa egin da.
  • Prestakuntza-ereduetarako eta koma mugikorreko kalkuluen erabileran oinarritutako testuak ezagutzeko modu berriak ezarri dira. Modu berriek errendimendu handiagoa eta memoria kontsumo txikiagoa eskaintzen dute. LSTM motorrean, float32 modu azkarra gaituta dago lehenespenez.
  • Trantsizio bat egin da Unicode normalizazioa NFC (Normalization Form Canonical) forma erabiliz.
  • Erregistroaren xehetasunak konfiguratzeko aukera bat gehitu da (--loglevel).
  • Autotools-en oinarritutako eraikuntza sistema birdiseinatu eta modu ez-errekurtsiboan eraikitzeko aldatu da.
  • Git-eko "maisu" adarra "nagusi" izena hartu du.
  • M1 txipan oinarritutako macOS eta Apple sistemen bertsio berrietarako laguntza gehitu da.

    Iturria: opennet.ru

Gehitu iruzkin berria