Pagpagawas sa Tesseract 5.1 nga sistema sa pag-ila sa teksto

Ang pagpagawas sa Tesseract 5.1 optical text recognition system gimantala, nga nagsuporta sa pag-ila sa UTF-8 nga mga karakter ug mga teksto sa labaw sa 100 ka mga pinulongan, lakip ang Russian, Kazakh, Belarusian ug Ukrainian. Ang resulta mahimong ma-save sa tin-aw nga teksto ug sa HTML (hOCR), ALTO (XML), PDF ug TSV nga mga format. Sa sinugdan, ang sistema gimugna sa 1985-1995 sa laboratoryo sa Hewlett Packard, sa 2005 ang code giablihan ubos sa Apache nga lisensya ug dugang nga naugmad uban sa partisipasyon sa mga empleyado sa Google. Ang gigikanan nga mga teksto sa proyekto giapod-apod sa ilawom sa lisensya sa Apache 2.0.

Ang Tesseract naglakip sa usa ka console utility ug ang libtesseract library alang sa pag-embed sa OCR functionality sa ubang mga aplikasyon. Ang Tesseract-supporting third-party GUIs naglakip sa gImageReader, VietOCR, ug YAGF. Duha ka makina sa pag-ila ang gisugyot: usa ka klasiko nga nag-ila sa teksto sa lebel sa indibidwal nga mga sumbanan sa karakter, ug usa ka bag-o nga gibase sa paggamit sa usa ka sistema sa pagkat-on sa makina nga gibase sa usa ka balik-balik nga neural network LSTM, na-optimize alang sa pag-ila sa tibuuk nga mga linya ug gitugotan ang usa ka mahinungdanon nga pagtaas sa katukma. Ang andam nga nabansay nga mga modelo gipatik alang sa 123 ka mga pinulongan. Aron ma-optimize ang pasundayag, gitanyag ang mga module nga naggamit sa OpenMP ug SIMD nga mga panudlo AVX2, AVX, NEON o SSE4.1.

Panguna nga mga pag-uswag sa Tesseract 5.1:

  • Ang katakus sa pagproseso sa mga lugar nga adunay mga imahe ug linya kung ang pag-output sa ALTO, hOCR ug mga format sa teksto gipatuman.
  • Gidugang bag-ong parameter curl_timeout lkz curl_easy_setop.
  • Gipauswag nga sistema sa pagtukod.
  • Gihimo ang trabaho aron matangtang ang wala magamit nga code
  • Naayo ang mga pagkahagsa tungod sa sayop nga pagdumala sa mga null pointer sa PageIterator::Orientation nga klase.

Source: opennet.ru

Idugang sa usa ka comment