Rilaxx tas-sistema ta' rikonoxximent tat-test Tesseract 4.1

Ippreparat rilaxx ta 'sistema ottika ta' rikonoxximent tat-test Tesseract 4.1, li jappoġġja r-rikonoxximent ta' karattri UTF-8 u testi f'aktar minn 100 lingwa, inklużi r-Russu, il-Każakistan, il-Belarus u l-Ukrajna. Ir-riżultat jista' jiġi ffrankat f'test sempliċi jew f'formati HTML (hOCR), ALTO (XML), PDF u TSV. Is-sistema inħolqot oriġinarjament fl-1985-1995 fil-laboratorju Hewlett Packard fl-2005, il-kodiċi nfetaħ taħt il-liċenzja Apache u ġie żviluppat aktar bil-parteċipazzjoni tal-impjegati ta 'Google; Sorsi tal-proġett jinfirex liċenzjat taħt Apache 2.0.

Tesseract jinkludi utilità tal-console u l-librerija libtesseract għall-inkorporazzjoni tal-funzjonalità tal-OCR f'applikazzjonijiet oħra. Minn partijiet terzi li jappoġġjaw Tesseract Interfaces tal-GUI tista' tinnota gImageReader, VietOCR и YAGF. Huma offruti żewġ magni ta’ rikonoxximent: waħda klassika li tagħraf it-test fil-livell ta’ mudelli ta’ karattri individwali, u waħda ġdida bbażata fuq l-użu ta’ sistema ta’ tagħlim bil-magni bbażata fuq netwerk newrali rikorrenti LSTM, ottimizzata biex tagħraf kordi sħaħ u tippermetti żieda sinifikanti fl-eżattezza. Mudelli mħarrġa lesti huma ppubblikati għal 123 lingwa. Biex tiġi ottimizzata l-prestazzjoni, huma offruti moduli li jużaw struzzjonijiet OpenMP u AVX2, AVX jew SSE4.1 SIMD.

Il-prinċipali titjib f'Tesseract 4.1:

  • Miżjud il-kapaċità li toħroġ f'format XML HIGH (Layout analizzat u Oġġett tat-Test). Biex tuża dan il-format, għandek tħaddem l-applikazzjoni bħala "tessaract image_name alto output_dir";
  • Miżjud moduli ġodda ta 'rendering LSTMBox u WordStrBox, li jissimplifikaw it-taħriġ tal-magni;
  • Appoġġ miżjud għall-psewdografiċi fil-produzzjoni tal-hOCR (HTML);
  • Miżjud skripts alternattivi miktuba f'Python għat-taħriġ tal-magna bbażata fuq it-tagħlim tal-magni;
  • Ottimizzazzjonijiet estiżi bl-użu ta 'struzzjonijiet AVX, AVX2 u SSE;
  • L-appoġġ OpenMP huwa diżattivat awtomatikament minħabba problemi bil-produttività;
  • Appoġġ miżjud għal-listi bojod u suwed fil-magna LSTM;
  • Scripts tal-bini mtejba bbażati fuq Cmake.

Sors: opennet.ru

Żid kumment