Rhyddhau'r system adnabod testun Tesseract 4.1

Parod rhyddhau system adnabod testun optegol Tesseract 4.1, cefnogi cydnabyddiaeth o nodau a thestunau UTF-8 mewn mwy na 100 o ieithoedd, gan gynnwys Rwsieg, Kazakh, Belarwseg a Wcreineg. Gellir arbed y canlyniad mewn testun plaen neu mewn fformatau HTML (hOCR), ALTO (XML), PDF a TSV. CrΓ«wyd y system yn wreiddiol yn 1985-1995 yn labordy Hewlett Packard; yn 2005, agorwyd y cod o dan drwydded Apache ac fe'i datblygwyd ymhellach gyda chyfranogiad gweithwyr Google. Ffynonellau prosiect lledaenu trwyddedig o dan Apache 2.0.

Mae Tesseract yn cynnwys cyfleustodau consol a'r llyfrgell libtesseract ar gyfer ymgorffori ymarferoldeb OCR mewn cymwysiadau eraill. Gan drydydd partΓ―on sy'n cefnogi Tesseract Rhyngwynebau GUI gallwch nodi gImageReader, VietOCR ΠΈ YAGF. Cynigir dwy injan adnabod: un glasurol sy'n adnabod testun ar lefel patrymau cymeriad unigol, ac un newydd yn seiliedig ar ddefnyddio system dysgu peirianyddol yn seiliedig ar rwydwaith niwral cylchol LSTM, wedi'i optimeiddio ar gyfer adnabod llinynnau cyfan a chaniatΓ‘u ar gyfer a cynnydd sylweddol mewn cywirdeb. Cyhoeddir modelau hyfforddedig parod ar gyfer 123 o ieithoedd. Er mwyn optimeiddio perfformiad, cynigir modiwlau sy'n defnyddio cyfarwyddiadau OpenMP ac AVX2, AVX neu SSE4.1 SIMD.

Y prif gwelliannau yn Tesseract 4.1:

  • Ychwanegwyd y gallu i allbwn mewn fformat XML UCHEL (Cynllun Dadansoddedig a Gwrthrych Testun). I ddefnyddio'r fformat hwn, dylech redeg y rhaglen fel "tessaract image_name alto output_dir";
  • Ychwanegwyd modiwlau rendro newydd LSTMBox a WordStrBox, gan symleiddio hyfforddiant injan;
  • Cefnogaeth ychwanegol ar gyfer ffugograffeg mewn allbwn hOCR (HTML);
  • Ychwanegwyd sgriptiau amgen a ysgrifennwyd yn Python ar gyfer hyfforddi'r injan yn seiliedig ar ddysgu peiriant;
  • Gwelliannau i optimeiddio gan ddefnyddio cyfarwyddiadau AVX, AVX2 a SSE;
  • Mae cefnogaeth OpenMP wedi'i analluogi yn ddiofyn oherwydd problemau gyda chynhyrchiant;
  • Cefnogaeth ychwanegol ar gyfer rhestrau gwyn a du yn yr injan LSTM;
  • Gwell sgriptiau adeiladu yn seiliedig ar Cmake.

Ffynhonnell: opennet.ru

Ychwanegu sylw