Testuak ezagutzeko sistemaren kaleratzea Tesseract 5.1

Tesseract 5.1 testu optikoa ezagutzeko sistemaren kaleratzea argitaratu da, UTF-8 karaktereak eta testuak 100 hizkuntza baino gehiagotan aitortzea onartzen duena, errusiera, kazakhera, bielorrusiera eta ukrainera barne. Emaitza testu arruntean edo HTML (hOCR), ALTO (XML), PDF eta TSV formatuetan gorde daiteke. 1985-1995 urteetan sortu zen sistema Hewlett Packard laborategian; 2005ean, kodea Apache lizentziapean ireki zen eta Google-ko langileen parte-hartzearekin garatu zen. Proiektuaren iturburu kodea Apache 2.0 lizentziapean banatzen da.

Tesseract-ek kontsola-erabilgarritasun bat eta libtesseract liburutegia barne hartzen ditu OCR funtzionalitatea beste aplikazio batzuetan txertatzeko. Tesseract onartzen duten hirugarrenen GUI interfazeak gImageReader, VietOCR eta YAGF dira. Bi ezagutze-motor eskaintzen dira: testua karaktere-eredu indibidualen mailan antzematen duen klasikoa, eta berria, LSTM sare neuronal errecurrente batean oinarritutako ikaskuntza automatikoko sistema baten erabileran oinarritutakoa, kate osoak ezagutzeko optimizatua eta aukera ematen duena. zehaztasunaren igoera nabarmena. Prestatutako eredu trebatuak 123 hizkuntzatarako argitaratu dira. Errendimendua optimizatzeko, OpenMP eta SIMD instrukzioak AVX2, AVX, NEON edo SSE4.1 erabiltzen dituzten moduluak eskaintzen dira.

Hobekuntza nagusiak Tesseract 5.1-n:

  • ALTO, hOCR eta testu formatuetan ateratzean irudiak eta lerroak dituzten eremuak prozesatzeko gaitasuna ezarri da.
  • Curl_timeout lkz curl_easy_setop parametro berria gehitu da.
  • Eraikuntza sistema hobetua.
  • Lan egin da erabili gabeko kodea kentzeko
  • PageIterator::Orientation klaseko erakusle nuluak gaizki manipulatzeagatik sortutako hutsegiteen aurka konpondu dira.

Iturria: opennet.ru

Gehitu iruzkin berria