Sgaoileadh siostam aithne teacsa Tesseract 4.1

Air ullachadh sgaoileadh siostam aithneachaidh teacsa optigeach Tesseract 4.1, a’ toirt taic do aithneachadh charactaran agus theacsaichean UTF-8 ann an còrr air 100 cànan, a’ toirt a-steach Ruisis, Kazakh, Bealarúisis agus Ucràinis. Faodar an toradh a shàbhaladh ann an teacsa shìmplidh no ann an cruthan HTML (hOCR), ALTO (XML), PDF agus TSV. Chaidh an siostam a chruthachadh an toiseach ann an 1985-1995 ann an obair-lann Hewlett Packard; ann an 2005, chaidh an còd fhosgladh fo chead Apache agus chaidh a leasachadh a bharrachd le com-pàirt luchd-obrach Google. Stòran pròiseict sgaoileadh le cead fo Apache 2.0.

Tha Tesseract a’ toirt a-steach goireas tòcan agus an leabharlann libtesseract airson gnìomhachd OCR a fhighe a-steach do thagraidhean eile. Bho threas phàrtaidhean a tha a 'toirt taic do Tesseract GUI eadar-aghaidh faodaidh tu a thoirt fa-near gImageReader, Bhietnam и YAGF. Thathas a’ tabhann dà einnsean aithneachaidh: fear clasaigeach a dh’ aithnicheas teacsa aig ìre pàtrain caractar fa-leth, agus fear ùr stèidhichte air cleachdadh siostam ionnsachaidh inneal stèidhichte air lìonra neural ath-chuairteach LSTM, air a bharrrachadh airson teudan slàn aithneachadh agus a’ ceadachadh a àrdachadh mòr ann an cruinneas. Bithear a’ foillseachadh mhodalan trèanaidh deiseil airson 123 cànan. Gus coileanadh a bharrachadh, thathas a’ tabhann mhodalan a’ cleachdadh stiùireadh OpenMP agus AVX2, AVX no SSE4.1 SIMD.

prìomh leasachaidhean ann an Tesseract 4.1:

  • Chuir sinn ris comas toradh ann an cruth XML 'Alto (Cruth Mion-sgrùdadh agus Rud Teacs). Gus an cruth seo a chleachdadh, bu chòir dhut an aplacaid a ruith mar “tessaract image_name alto output_dir”;
  • Chaidh modalan tairgse ùra a chur ris LSTMBox agus WordStrBox, a’ sìmpleachadh trèanadh einnsean;
  • Taic a bharrachd airson pseudographics ann an toradh hOCR (HTML);
  • Chaidh sgriobtaichean eile a chur ris sgrìobhte ann am Python airson an einnsean a thrèanadh stèidhichte air ionnsachadh innealan;
  • Optimizations leudaichte a’ cleachdadh stiùiridhean AVX, AVX2 agus SSE;
  • Tha taic OpenMP à comas gu bunaiteach air sgàth duilgheadasan le cinneasachd;
  • Taic a bharrachd airson liostaichean geal is dubh san einnsean LSTM;
  • Sgriobtaichean togail nas fheàrr stèidhichte air Cmake.

Source: fosgailtenet.ru

Cuir beachd ann