Tekstituvastussüsteemi Tesseract väljalase 4.1

Valmistatud optilise tekstituvastussüsteemi vabastamine Tesseact 4.1, mis toetab UTF-8 märkide ja tekstide tuvastamist enam kui 100 keeles, sealhulgas vene, kasahhi, valgevene ja ukraina keeles. Tulemust saab salvestada lihttekstina või HTML (hOCR), ALTO (XML), PDF ja TSV vormingus. Süsteem loodi algselt aastatel 1985-1995 Hewlett Packardi laboris, 2005. aastal avati kood Apache litsentsi all ning seda arendati edasi Google'i töötajate osalusel. Projekti allikad levima litsentsitud Apache 2.0 alusel.

Tesseract sisaldab konsooli utiliiti ja libtesseracti teeki OCR-i funktsioonide manustamiseks teistesse rakendustesse. Kolmandatelt osapooltelt, kes toetavad Tesseracti GUI liidesed võite märkida gImageReader, VietOCR и YAGF. Pakutakse kahte tuvastusmootorit: klassikaline, mis tuvastab teksti üksikute märgimustrite tasemel, ja uus, mis põhineb LSTM-i korduval närvivõrgul põhineval masinõppesüsteemil, mis on optimeeritud tervete stringide tuvastamiseks ja võimaldab täpsuse märkimisväärne tõus. jaoks avaldatakse valmis koolitatud mudelid 123 keelt. Jõudluse optimeerimiseks pakutakse OpenMP ja AVX2, AVX või SSE4.1 SIMD juhiseid kasutavad moodulid.

Kõik täiustused Tesseracti versioonis 4.1:

  • Lisatud võimalus XML-vormingus väljastada HIGH (Analüüsitud paigutus ja tekstiobjekt). Selle vormingu kasutamiseks peaksite rakenduse käivitama kui "tessaract image_name alto output_dir";
  • Lisatud uued renderdusmoodulid LSTMBox ja WordStrBox, mis lihtsustavad mootorikoolitust;
  • Lisatud tugi pseudograafiale hOCR (HTML) väljundis;
  • Lisatud alternatiivsed Pythonis kirjutatud skriptid masinaõppel põhineva mootori koolitamiseks;
  • Laiendatud optimeerimised AVX, AVX2 ja SSE juhiste abil;
  • OpenMP tugi on vaikimisi keelatud probleeme tootlikkusega;
  • Lisatud LSTM-mootori valgete ja mustade nimekirjade tugi;
  • Cmake'il põhinevad täiustatud ehitusskriptid.

Allikas: opennet.ru

Lisa kommentaar