Tekstituvastussüsteemi Tesseract väljalase 5.0

Avaldatud on optilise tekstituvastussüsteemi Tesseract 4.1 väljalase, mis toetab UTF-8 märkide ja tekstide tuvastamist enam kui 100 keeles, sealhulgas vene, kasahhi, valgevene ja ukraina keeles. Tulemust saab salvestada lihttekstina või HTML (hOCR), ALTO (XML), PDF ja TSV vormingus. Süsteem loodi algselt aastatel 1985-1995 Hewlett Packardi laboris, 2005. aastal avati kood Apache litsentsi all ning seda arendati edasi Google'i töötajate osalusel. Projekti lähtekoodi levitatakse Apache 2.0 litsentsi all.

Tesseract sisaldab konsooli utiliiti ja libtesseracti teeki OCR-i funktsioonide manustamiseks teistesse rakendustesse. Tesseracti toetavate kolmandate osapoolte GUI liideste hulka kuuluvad gImageReader, VietOCR ja YAGF. Pakutakse kahte tuvastusmootorit: klassikaline, mis tuvastab teksti üksikute märgimustrite tasemel, ja uus, mis põhineb LSTM-i korduval närvivõrgul põhineval masinõppesüsteemil, mis on optimeeritud tervete stringide tuvastamiseks ja võimaldab täpsuse märkimisväärne tõus. Valmis väljaõppega mudeleid on avaldatud 123 keeles. Jõudluse optimeerimiseks pakutakse OpenMP ja SIMD juhiseid AVX2, AVX, NEON või SSE4.1 kasutavaid mooduleid.

Tesseracti 5.0 peamised täiustused:

  • Versiooninumbri oluline muutus on tingitud API-s tehtud muudatustest, mis rikuvad ühilduvust. Eelkõige ei ole avalikult saadaval olev libtesseract API enam seotud patenteeritud andmetüüpidega GenericVector ja STRING, eelistades std::string ja std::vector.
  • Lähteteksti puu on ümber korraldatud. Avaliku päise failid on teisaldatud kataloogi include/tesseract.
  • Mäluhaldus on ümber kujundatud, kõik malloc ja tasuta kõned on asendatud C++ koodiga. Teostatud on koodi üldine moderniseerimine.
  • Lisatud ARM-i ja ARM64-arhitektuuride optimeerimised; Arvutuste kiirendamiseks kasutatakse ARM NEON-i juhiseid. Kõigile arhitektuuridele ühine jõudluse optimeerimine on läbi viidud.
  • Rakendatud on uued ujukomaarvutuste kasutamisel põhinevad treeningmudelite ja tekstituvastuse režiimid. Uued režiimid pakuvad suuremat jõudlust ja väiksemat mälutarbimist. LSTM-i mootoris on float32 kiirrežiim vaikimisi lubatud.
  • On tehtud üleminek Unicode'i normaliseerimisele, kasutades vormi NFC (Normalization Form Canonical).
  • Lisatud võimalus logide detailide seadistamiseks (--loglevel).
  • Autotoolsil põhinev ehitussüsteem on ümber kujundatud ja lülitatud mitterekursiivsele režiimile.
  • Giti põhiharu on ümber nimetatud "peamiseks".
  • Lisatud on M1 kiibil põhinevate macOS-i ja Apple'i süsteemide uute väljalasete tugi.

    Allikas: opennet.ru

Lisa kommentaar