Rhyddhau'r system adnabod testun Tesseract 5.1

Mae system adnabod testun optegol Tesseract 5.1 wedi'i chyhoeddi, sy'n cefnogi cydnabyddiaeth o nodau a thestunau UTF-8 mewn mwy na 100 o ieithoedd, gan gynnwys Rwsieg, Kazakh, Belarwseg a Wcreineg. Gellir arbed y canlyniad mewn testun clir ac mewn fformatau HTML (hOCR), ALTO (XML), PDF a TSV. I ddechrau, crΓ«wyd y system ym 1985-1995 yn labordy Hewlett Packard, yn 2005 agorwyd y cod o dan drwydded Apache a'i ddatblygu ymhellach gyda chyfranogiad gweithwyr Google. Mae testunau ffynhonnell y prosiect yn cael eu dosbarthu o dan drwydded Apache 2.0.

Mae Tesseract yn cynnwys cyfleustodau consol a'r llyfrgell libtesseract ar gyfer ymgorffori ymarferoldeb OCR mewn cymwysiadau eraill. Mae GUIs trydydd parti sy'n cefnogi Tesseract yn cynnwys gImageReader, VietOCR, ac YAGF. Cynigir dau beiriant adnabod: un glasurol sy'n cydnabod testun ar lefel patrymau cymeriad unigol, ac un newydd yn seiliedig ar ddefnyddio system dysgu peirianyddol yn seiliedig ar rwydwaith niwral cylchol LSTM, wedi'i optimeiddio ar gyfer adnabod llinellau cyfan a chaniatΓ‘u a cynnydd sylweddol mewn cywirdeb. Mae modelau hyfforddedig parod wedi'u cyhoeddi ar gyfer 123 o ieithoedd. Er mwyn optimeiddio perfformiad, cynigir modiwlau sy'n defnyddio cyfarwyddiadau OpenMP a SIMD AVX2, AVX, NEON neu SSE4.1.

Gwelliannau allweddol yn Tesseract 5.1:

  • Mae'r gallu i brosesu ardaloedd gyda delweddau a llinellau wrth allbynnu mewn fformatau ALTO, hOCR a thestun wedi'i weithredu.
  • Ychwanegwyd paramedr newydd curl_timeout lkz curl_easy_setop.
  • Gwell system adeiladu.
  • Mae gwaith wedi'i wneud i ddileu cod nas defnyddiwyd
  • Damweiniau sefydlog a achosir gan drin awgrymiadau nwl yn anghywir yn y PageIterator ::Cyfeiriadedd dosbarth.

Ffynhonnell: opennet.ru

Ychwanegu sylw