Testuak ezagutzeko sistemaren kaleratzea Tesseract 5.2

Tesseract 5.2 testu optikoa ezagutzeko sistemaren kaleratzea argitaratu da, UTF-8 karaktereak eta testuak 100 hizkuntza baino gehiagotan aitortzea onartzen duena, errusiera, kazakhera, bielorrusiera eta ukrainera barne. Emaitza testu arruntean edo HTML (hOCR), ALTO (XML), PDF eta TSV formatuetan gorde daiteke. 1985-1995 urteetan sortu zen sistema Hewlett Packard laborategian; 2005ean, kodea Apache lizentziapean ireki zen eta Google-ko langileen parte-hartzearekin garatu zen. Proiektuaren iturburu kodea Apache 2.0 lizentziapean banatzen da.

Tesseract-ek kontsola-erabilgarritasun bat eta libtesseract liburutegia barne hartzen ditu OCR funtzionalitatea beste aplikazio batzuetan txertatzeko. Tesseract onartzen duten hirugarrenen GUI interfazeak gImageReader, VietOCR eta YAGF dira. Bi ezagutze-motor eskaintzen dira: testua karaktere-eredu indibidualen mailan antzematen duen klasikoa, eta berria, LSTM sare neuronal errekurrente batean oinarritutako ikaskuntza automatikoko sistema baten erabileran oinarritutakoa, kate osoak ezagutzeko optimizatua eta aukera ematen duena. zehaztasunaren igoera nabarmena. Prestatutako eredu trebatuak 123 hizkuntzatarako argitaratu dira. Errendimendua optimizatzeko, OpenMP eta SIMD argibideak AVX2, AVX, AVX512F, NEON edo SSE4.1 erabiltzen dituzten moduluak eskaintzen dira.

Hobekuntza nagusiak Tesseract 5.2-n:

  • Intel AVX512F argibideak erabiliz inplementatutako optimizazioak gehitu dira.
  • C APIak tesseract hasieratzeko funtzio bat inplementatzen du ikaskuntza automatikoko eredu bat memoriatik kargatuz.
  • Invert_threshold parametroa gehitu da, testu-kateen inbertsio-maila zehazten duena. Balio lehenetsia 0.7 da. Inbertsioa desgaitzeko, ezarri balioa 0.
  • Dokumentu oso handien prozesamendua hobetu da 32 biteko ostalarietan.
  • Trantsizioa std::regex funtzioak erabiltzetik std::stringera egin da.
  • Autotools, CMake eta etengabeko integrazio sistemetarako eraikitze-scriptak hobetu dira.

    Iturria: opennet.ru

Gehitu iruzkin berria