Teksta atpazīšanas sistēmas Tesseract izlaišana 5.0

Ir publicēts Tesseract 4.1 optiskās teksta atpazīšanas sistēmas izlaidums, kas atbalsta UTF-8 rakstzīmju un tekstu atpazīšanu vairāk nekā 100 valodās, tostarp krievu, kazahu, baltkrievu un ukraiņu valodā. Rezultātu var saglabāt vienkāršā tekstā vai HTML (hOCR), ALTO (XML), PDF un TSV formātos. Sistēma sākotnēji tika izveidota 1985.-1995.gadā Hewlett Packard laboratorijā, 2005.gadā kods tika atvērts saskaņā ar Apache licenci un tika tālāk pilnveidots, piedaloties Google darbiniekiem. Projekta pirmkods tiek izplatīts saskaņā ar Apache 2.0 licenci.

Tesseract ietver konsoles utilītu un libtesseract bibliotēku OCR funkcionalitātes iegulšanai citās lietojumprogrammās. Trešās puses GUI saskarnēs, kas atbalsta Tesseract, ietilpst gImageReader, VietOCR un YAGF. Tiek piedāvāti divi atpazīšanas dzinēji: klasiskais, kas atpazīst tekstu atsevišķu rakstzīmju modeļu līmenī, un jauns, kura pamatā ir mašīnmācīšanās sistēmas izmantošana, kuras pamatā ir LSTM atkārtots neironu tīkls, kas optimizēts veselu virkņu atpazīšanai un ļauj ievērojams precizitātes pieaugums. Ir publicēti gatavi apmācīti modeļi 123 valodās. Lai optimizētu veiktspēju, tiek piedāvāti moduļi, kas izmanto OpenMP un SIMD instrukcijas AVX2, AVX, NEON vai SSE4.1.

Lielākie Tesseract 5.0 uzlabojumi:

  • Būtiskas izmaiņas versijas numurā ir saistītas ar API veiktajām izmaiņām, kas traucē saderību. Jo īpaši publiski pieejamā libtesseract API vairs nav saistīta ar patentētajiem datu tipiem GenericVector un STRING, dodot priekšroku std::string un std::vector.
  • Avota teksta koks ir reorganizēts. Publiskie galvenes faili ir pārvietoti uz iekļaut/tesseract direktoriju.
  • Atmiņas pārvaldība ir pārveidota, visi malloc un bezmaksas zvani ir aizstāti ar C++ kodu. Ir veikta vispārēja koda modernizācija.
  • Pievienota ARM un ARM64 arhitektūru optimizācija; ARM NEON instrukcijas tiek izmantotas, lai paātrinātu aprēķinus. Veikta veiktspējas optimizācija, kas ir kopīga visām arhitektūrām.
  • Ir ieviesti jauni apmācības modeļu un teksta atpazīšanas režīmi, kuru pamatā ir peldošā komata aprēķini. Jaunie režīmi piedāvā lielāku veiktspēju un mazāku atmiņas patēriņu. LSTM dzinējā float32 ātrais režīms ir iespējots pēc noklusējuma.
  • Ir veikta pāreja uz Unicode normalizācijas izmantošanu, izmantojot NFC (Normalization Form Canonical) formu.
  • Pievienota iespēja konfigurēt žurnāla detalizāciju (--loglevel).
  • Uz Autotools balstītā veidošanas sistēma ir pārveidota un pārslēgta uz nerekursīvo režīmu.
  • "Master" filiāle Git ir pārdēvēta par "galveno".
  • Pievienots atbalsts jauniem MacOS un Apple sistēmu laidieniem, kuru pamatā ir M1 mikroshēma.

    Avots: opennet.ru

Pievieno komentāru