Útgáfa textagreiningarkerfisins Tesseract 5.1

Útgáfa Tesseract 5.1 optíska textagreiningarkerfisins hefur verið gefin út, sem styður viðurkenningu á UTF-8 stöfum og texta á meira en 100 tungumálum, þar á meðal rússnesku, kasakska, hvítrússnesku og úkraínsku. Niðurstöðuna er hægt að vista í venjulegum texta eða í HTML (hOCR), ALTO (XML), PDF og TSV sniðum. Kerfið var upphaflega búið til á árunum 1985-1995 í Hewlett Packard rannsóknarstofunni; árið 2005 var kóðinn opnaður undir Apache leyfinu og var þróaður áfram með þátttöku starfsmanna Google. Frumkóði verkefnisins er dreift undir Apache 2.0 leyfinu.

Tesseract inniheldur skipanalínuforrit og libtesseract bókasafnið til að fella textagreiningarvirkni inn í önnur forrit. GUI viðmót frá þriðja aðila sem styðja Tesseract eru meðal annars gImageReader, VietOCR og YAGF. Tvær greiningarvélar eru í boði: hefðbundin vél sem þekkir texta á stigi einstakra stafamynstra og ný vél sem byggir á vélanámskerfi sem byggir á LSTM endurteknu tauganeti sem er fínstillt til að þekkja heila strengi og ná fram verulega bættri nákvæmni. Tilbúnar þjálfaðar gerðir eru í boði fyrir 123 tungumál. Til að hámarka afköst eru í boði einingar sem nota OpenMP og AVX2, AVX, NEON eða SSE4.1 SIMD leiðbeiningar.

Helstu úrbætur í Tesseract 5.1 eru meðal annars:

  • Möguleikinn á að vinna úr svæðum með myndum og línum þegar þau eru birt í ALTO, hOCR og textaformi hefur verið innleiddur.
  • Bætti við nýrri breytu curl_timeout lkz curl_easy_setop.
  • Bætt byggingarkerfi.
  • Unnið hefur verið að því að fjarlægja ónotaðan kóða
  • Lagfærði hrun sem orsökuðust af rangri meðhöndlun núllpunkta í PageIterator::Orientation klasanum.

Heimild: opennet.ru

Kauptu áreiðanlega hýsingu fyrir síður með DDoS vernd, VPS VDS netþjónum 🔥 Kauptu áreiðanlega vefhýsingu með DDoS vörn, VPS VDS netþjónum | ProHoster