Rhyddhau'r system adnabod testun Tesseract 5.2

Mae system adnabod testun optegol Tesseract 5.2 wedi'i chyhoeddi, sy'n cefnogi cydnabyddiaeth o nodau a thestunau UTF-8 mewn mwy na 100 o ieithoedd, gan gynnwys Rwsieg, Kazakh, Belarwseg a Wcreineg. Gellir arbed y canlyniad mewn testun clir ac mewn fformatau HTML (hOCR), ALTO (XML), PDF a TSV. I ddechrau, crΓ«wyd y system ym 1985-1995 yn labordy Hewlett Packard, yn 2005 agorwyd y cod o dan drwydded Apache a'i ddatblygu ymhellach gyda chyfranogiad gweithwyr Google. Mae testunau ffynhonnell y prosiect yn cael eu dosbarthu o dan drwydded Apache 2.0.

Mae Tesseract yn cynnwys cyfleustodau consol a'r llyfrgell libtesseract ar gyfer ymgorffori ymarferoldeb OCR mewn cymwysiadau eraill. Mae rhyngwynebau GUI trydydd parti sy'n cefnogi Tesseract yn cynnwys gImageReader, VietOCR ac YAGF. Cynigir dwy injan adnabod: un glasurol sy'n adnabod testun ar lefel patrymau cymeriad unigol, ac un newydd yn seiliedig ar ddefnyddio system dysgu peirianyddol yn seiliedig ar rwydwaith niwral cylchol LSTM, wedi'i optimeiddio ar gyfer adnabod llinynnau cyfan a chaniatΓ‘u ar gyfer a cynnydd sylweddol mewn cywirdeb. Mae modelau hyfforddedig parod wedi'u cyhoeddi ar gyfer 123 o ieithoedd. Er mwyn optimeiddio perfformiad, cynigir modiwlau sy'n defnyddio cyfarwyddiadau OpenMP a SIMD AVX2, AVX, AVX512F, NEON neu SSE4.1.

Gwelliannau allweddol yn Tesseract 5.2:

  • Optimeiddiadau ychwanegol wedi'u gweithredu gan ddefnyddio cyfarwyddiadau Intel AVX512F.
  • Mae'r API C yn gweithredu swyddogaeth i gychwyn teseract trwy lwytho model dysgu peiriant o'r cof.
  • Ychwanegwyd y paramedr invert_threshold, sy'n pennu lefel gwrthdroad llinynnau testun. Y gwerth rhagosodedig yw 0.7. I analluogi gwrthdroad, gosodwch y gwerth i 0.
  • Gwell prosesu dogfennau mawr iawn ar westeion 32-bit.
  • Mae'r trawsnewidiad wedi'i wneud o ddefnyddio ffwythiannau std::regex i std ::string.
  • Gwell sgriptiau adeiladu ar gyfer Autotools, CMake a systemau integreiddio parhaus.

    Ffynhonnell: opennet.ru

Ychwanegu sylw