Teksto atpažinimo sistemos Tesseract 5.1 išleidimas

Paskelbtas Tesseract 5.1 optinio teksto atpažinimo sistemos leidimas, palaikantis UTF-8 simbolių ir tekstų atpažinimą daugiau nei 100 kalbų, įskaitant rusų, kazachų, baltarusių ir ukrainiečių. Rezultatas gali būti išsaugotas paprastu tekstu arba HTML (hOCR), ALTO (XML), PDF ir TSV formatais. Iš pradžių sistema buvo sukurta 1985–1995 m. Hewlett Packard laboratorijoje, o 2005 m. kodas buvo atidarytas pagal Apache licenciją ir buvo toliau tobulinamas dalyvaujant „Google“ darbuotojams. Projekto šaltinio kodas platinamas pagal Apache 2.0 licenciją.

„Tesseract“ apima konsolės programą ir „libtesseract“ biblioteką, skirtą OCR funkcijoms įterpti į kitas programas. Trečiųjų šalių GUI sąsajos, palaikančios Tesseract, apima gImageReader, VietOCR ir YAGF. Siūlomi du atpažinimo varikliai: klasikinis, atpažįstantis tekstą atskirų simbolių modelių lygiu, ir naujas, pagrįstas mašininio mokymosi sistema, pagrįsta LSTM pasikartojančiu neuroniniu tinklu, optimizuota atpažinti visas eilutes ir leidžianti reikšmingas tikslumo padidėjimas. Paruošti apmokyti modeliai buvo paskelbti 123 kalbomis. Siekiant optimizuoti našumą, siūlomi moduliai naudojant OpenMP ir SIMD instrukcijas AVX2, AVX, NEON arba SSE4.1.

Pagrindiniai Tesseact 5.1 patobulinimai:

  • Įdiegta galimybė apdoroti sritis su vaizdais ir linijomis išvedant ALTO, hOCR ir teksto formatus.
  • Pridėtas naujas parametras curl_timeout lkz curl_easy_setop.
  • Patobulinta konstravimo sistema.
  • Buvo atliktas darbas siekiant pašalinti nenaudojamą kodą
  • Ištaisytos strigtys, atsiradusios dėl neteisingo nulinių rodyklių tvarkymo „PageIterator::Orientation“ klasėje.

Šaltinis: opennet.ru

Добавить комментарий