Frigivelse af tekstgenkendelsessystemet Tesseract 4.1

Forberedt frigivelse af optisk tekstgenkendelsessystem Tesseract 4.1, der understøtter genkendelse af UTF-8-tegn og tekster på mere end 100 sprog, herunder russisk, kasakhisk, hviderussisk og ukrainsk. Resultatet kan gemmes i almindelig tekst eller i HTML (hOCR), ALTO (XML), PDF og TSV formater. Systemet blev oprindeligt oprettet i 1985-1995 i Hewlett Packard-laboratoriet; i 2005 blev koden åbnet under Apache-licensen og blev videreudviklet med deltagelse af Google-medarbejdere. Projektkilder spredning licenseret under Apache 2.0.

Tesseract inkluderer et konsolværktøj og libtesseract-biblioteket til indlejring af OCR-funktionalitet i andre applikationer. Fra tredjeparter, der understøtter Tesseract GUI-grænseflader du kan notere gImageReader, VietOCR и YAGF. Der tilbydes to genkendelsesmotorer: en klassisk, der genkender tekst på niveau med individuelle karaktermønstre, og en ny baseret på brugen af ​​et maskinlæringssystem baseret på et LSTM tilbagevendende neuralt netværk, optimeret til at genkende hele strenge og giver mulighed for en markant stigning i nøjagtigheden. Færdiglavede trænede modeller udgives til 123 sprog. For at optimere ydeevnen tilbydes moduler, der bruger OpenMP og AVX2, AVX eller SSE4.1 SIMD instruktioner.

The main forbedring i Tesseract 4.1:

  • Tilføjet muligheden for at output i XML-format HØJ (Analyseret layout og tekstobjekt). For at bruge dette format, skal du køre programmet som "tessaract image_name alto output_dir";
  • Tilføjet nye gengivelsesmoduler LSTMBox og WordStrBox, hvilket forenkler motortræning;
  • Tilføjet understøttelse af pseudografik i hOCR (HTML) output;
  • Tilføjet alternative scripts skrevet i Python til træning af motoren baseret på maskinlæring;
  • Udvidede optimeringer ved hjælp af AVX, AVX2 og SSE instruktioner;
  • OpenMP-understøttelse er som standard deaktiveret pga problemer med produktivitet;
  • Tilføjet understøttelse af hvide og sorte lister i LSTM-motoren;
  • Forbedrede build-scripts baseret på Cmake.

Kilde: opennet.ru

Tilføj en kommentar