Útgáfa textagreiningarkerfisins Tesseract 4.1

Undirbúinn útgáfa sjónræns textagreiningarkerfis Tesseract 4.1, sem styður við viðurkenningu á UTF-8 stöfum og textum á meira en 100 tungumálum, þar á meðal rússnesku, kasakska, hvítrússnesku og úkraínsku. Niðurstöðuna er hægt að vista í venjulegum texta eða í HTML (hOCR), ALTO (XML), PDF og TSV sniðum. Kerfið var upphaflega búið til á árunum 1985-1995 í Hewlett Packard rannsóknarstofunni; árið 2005 var kóðinn opnaður undir Apache leyfinu og var þróaður áfram með þátttöku starfsmanna Google. Verkefnisheimildir dreifing leyfi samkvæmt Apache 2.0.

Tesseract inniheldur stjórnborðsforrit og libtesseract bókasafnið til að fella OCR virkni inn í önnur forrit. Frá þriðja aðila sem styðja Tesseract GUI tengi þú getur athugað gImageReader, VietOCR и YAGF. Tvær auðkenningarvélar eru í boði: klassísk sem þekkir texta á stigi einstakra stafamynstra og ný sem byggir á notkun vélanámskerfis sem byggir á LSTM endurteknu tauganeti, fínstillt til að þekkja heila strengi og gerir kleift að veruleg aukning á nákvæmni. Tilbúnar þjálfaðar gerðir eru gefnar út fyrir 123 tungumál. Til að hámarka frammistöðu eru einingar sem nota OpenMP og AVX2, AVX eða SSE4.1 SIMD leiðbeiningar í boði.

Helstu endurbætur í Tesseract 4.1:

  • Bætti við getu til að framleiða á XML sniði ALTO (Greint útlit og textahlutur). Til að nota þetta snið ættir þú að keyra forritið sem "tessaract image_name alto output_dir";
  • Bætt við nýjum flutningseiningum LSTMBox og WordStrBox, sem einfaldar vélþjálfun;
  • Bætt við stuðningi við gervimyndir í hOCR (HTML) úttak;
  • Bætti við öðrum forskriftum skrifuð í Python til að þjálfa vélina sem byggir á vélanámi;
  • Stækkuð hagræðing með því að nota AVX, AVX2 og SSE leiðbeiningar;
  • OpenMP stuðningur er sjálfgefið óvirkur vegna vandamál með framleiðni;
  • Bætt við stuðningi við hvíta og svarta lista í LSTM vélinni;
  • Bætt byggingarforskrift byggð á Cmake.

Heimild: opennet.ru

Bæta við athugasemd