Útgáfa textagreiningarkerfisins Tesseract 5.0

Útgáfa Tesseract 4.1 optíska textagreiningarkerfisins hefur verið gefin út, sem styður viðurkenningu á UTF-8 stöfum og texta á meira en 100 tungumálum, þar á meðal rússnesku, kasakska, hvítrússnesku og úkraínsku. Niðurstöðuna er hægt að vista í venjulegum texta eða í HTML (hOCR), ALTO (XML), PDF og TSV sniðum. Kerfið var upphaflega búið til á árunum 1985-1995 í Hewlett Packard rannsóknarstofunni; árið 2005 var kóðinn opnaður undir Apache leyfinu og var þróaður áfram með þátttöku starfsmanna Google. Frumkóði verkefnisins er dreift undir Apache 2.0 leyfinu.

Tesseract inniheldur stjórnborðsforrit og libtesseract bókasafnið til að fella OCR virkni inn í önnur forrit. Þriðja aðila GUI tengi sem styðja Tesseract eru gImageReader, VietOCR og YAGF. Tvær auðkenningarvélar eru í boði: klassísk sem þekkir texta á stigi einstakra stafamynstra og ný sem byggir á notkun vélanámskerfis sem byggir á LSTM endurteknu tauganeti, fínstillt til að þekkja heila strengi og gerir kleift að veruleg aukning á nákvæmni. Tilbúnar þjálfaðar gerðir hafa verið gefnar út fyrir 123 tungumál. Til að hámarka frammistöðu eru einingar sem nota OpenMP og SIMD leiðbeiningar AVX2, AVX, NEON eða SSE4.1 í boði.

Helstu endurbætur á Tesseract 5.0:

  • Veruleg breyting á útgáfunúmeri er vegna breytinga sem gerðar eru á API sem brjóta eindrægni. Sérstaklega er almennt aðgengilegt libtesseract API ekki lengur bundið við séreignar GenericVector og STRING gagnategundirnar, í þágu std::string og std::vector.
  • Frumtextatréð hefur verið endurskipulagt. Opinberar hausaskrár hafa verið færðar í include/tesseract möppuna.
  • Minnisstjórnun hefur verið endurhönnuð, öllum malloc og ókeypis símtölum hefur verið skipt út fyrir C++ kóða. Almenn nútímavæðing á reglum hefur farið fram.
  • Bætt við hagræðingu fyrir ARM og ARM64 arkitektúr; ARM NEON leiðbeiningar eru notaðar til að flýta útreikningum. Frammistöðuhagræðing sem er sameiginleg öllum arkitektúrum hefur verið framkvæmd.
  • Nýjar stillingar fyrir þjálfunarlíkön og textagreiningu sem byggjast á notkun útreikninga með flotpunkta hafa verið innleiddar. Nýju stillingarnar bjóða upp á meiri afköst og minni minnisnotkun. Í LSTM vélinni er float32 hraðhamur sjálfgefið virkur.
  • Skipt hefur verið yfir í að nota Unicode normalization með því að nota NFC (Normalization Form Canonical) eyðublaðið.
  • Bætti við möguleika til að stilla upplýsingar um annál (--loglevel).
  • Byggingarkerfið sem byggir á Autotools hefur verið endurhannað og skipt yfir í að byggja í óendurkvæmri stillingu.
  • „Master“ útibúið í Git hefur verið breytt í „aðal“.
  • Bætti við stuðningi við nýjar útgáfur af macOS og Apple kerfum byggðar á M1 flísinni.

    Heimild: opennet.ru

Bæta við athugasemd