Rhyddhau'r system adnabod testun Tesseract 5.0

Mae system adnabod testun optegol Tesseract 4.1 wedi'i chyhoeddi, sy'n cefnogi cydnabyddiaeth o nodau a thestunau UTF-8 mewn mwy na 100 o ieithoedd, gan gynnwys Rwsieg, Kazakh, Belarwseg a Wcreineg. Gellir arbed y canlyniad mewn testun clir ac mewn fformatau HTML (hOCR), ALTO (XML), PDF a TSV. I ddechrau, crëwyd y system ym 1985-1995 yn labordy Hewlett Packard, yn 2005 agorwyd y cod o dan drwydded Apache a'i ddatblygu ymhellach gyda chyfranogiad gweithwyr Google. Mae testunau ffynhonnell y prosiect yn cael eu dosbarthu o dan drwydded Apache 2.0.

Mae Tesseract yn cynnwys cyfleustodau consol a'r llyfrgell libtesseract ar gyfer ymgorffori ymarferoldeb OCR mewn cymwysiadau eraill. Mae GUIs trydydd parti sy'n cefnogi Tesseract yn cynnwys gImageReader, VietOCR, ac YAGF. Cynigir dau beiriant adnabod: un glasurol sy'n cydnabod testun ar lefel patrymau cymeriad unigol, ac un newydd yn seiliedig ar ddefnyddio system dysgu peirianyddol yn seiliedig ar rwydwaith niwral cylchol LSTM, wedi'i optimeiddio ar gyfer adnabod llinellau cyfan a chaniatáu a cynnydd sylweddol mewn cywirdeb. Mae modelau hyfforddedig parod wedi'u cyhoeddi ar gyfer 123 o ieithoedd. Er mwyn optimeiddio perfformiad, cynigir modiwlau sy'n defnyddio cyfarwyddiadau OpenMP a SIMD AVX2, AVX, NEON neu SSE4.1.

Gwelliannau allweddol yn Tesseract 5.0:

  • Mae'r newid sylweddol yn nifer y fersiwn o ganlyniad i newidiadau i'r API sy'n torri cydnawsedd. Yn benodol, nid yw'r API libtesseract sydd ar gael yn gyhoeddus bellach yn gysylltiedig â'r mathau o ddata perchnogol GenericVector a STRING, yn lle pa std::string a std::vector a ddefnyddir yn y cod.
  • Mae'r goeden ffynhonnell wedi'i had-drefnu. Mae'r ffeiliau pennyn cyhoeddus wedi'u symud i'r cyfeiriadur cynnwys/teseract.
  • Mae rheoli cof wedi'i ailgynllunio, mae pob galwad i malloc ac am ddim wedi'i disodli gan god C++. Mae uwchraddio cod cyffredinol wedi'i wneud.
  • Ychwanegwyd optimeiddiadau ar gyfer pensaernïaeth ARM ac ARM64, defnyddir cyfarwyddiadau ARM NEON i gyflymu cyfrifiadau. Perfformio optimeiddio perfformiad cyffredinol ar gyfer pob pensaernïaeth.
  • Gweithredu dulliau newydd o hyfforddi model ac adnabod testun, yn seiliedig ar y defnydd o gyfrifiadau pwynt arnawf. Nodweddir y moddau newydd gan berfformiad uwch a llai o ddefnydd o gof. Yn yr injan LSTM, mae modd cyflym float32 wedi'i alluogi yn ddiofyn.
  • Mae'r newid i'r defnydd o normaleiddio Unicode gan ddefnyddio'r ffurflen NFC (Ffurflen Normaleiddio Canonical) wedi'i wneud.
  • Ychwanegwyd opsiwn i ffurfweddu manylion log (-loglevel).
  • Mae'r system gydosod sy'n seiliedig ar Autotools wedi'i hailgynllunio, sydd wedi'i newid i gydosod mewn modd nad yw'n ailadroddus.
  • Mae'r gangen 'feistr' yn Git wedi'i hailenwi'n 'brif'.
  • Cefnogaeth ychwanegol ar gyfer datganiadau newydd o systemau macOS ac Apple yn seiliedig ar y sglodyn M1.

    Ffynhonnell: opennet.ru

Ychwanegu sylw