Frigivelse af tekstgenkendelsessystemet Tesseract 4.1
Forberedt frigivelse af optisk tekstgenkendelsessystem Tesseract 4.1, der understøtter genkendelse af UTF-8-tegn og tekster på mere end 100 sprog, herunder russisk, kasakhisk, hviderussisk og ukrainsk. Resultatet kan gemmes i almindelig tekst eller i HTML (hOCR), ALTO (XML), PDF og TSV formater. Systemet blev oprindeligt oprettet i 1985-1995 i Hewlett Packard-laboratoriet; i 2005 blev koden åbnet under Apache-licensen og blev videreudviklet med deltagelse af Google-medarbejdere. Projektkilder spredning licenseret under Apache 2.0.
Tesseract inkluderer et konsolværktøj og libtesseract-biblioteket til indlejring af OCR-funktionalitet i andre applikationer. Fra tredjeparter, der understøtter Tesseract GUI-grænseflader du kan notere gImageReader, VietOCR и YAGF. Der tilbydes to genkendelsesmotorer: en klassisk, der genkender tekst på niveau med individuelle karaktermønstre, og en ny baseret på brugen af et maskinlæringssystem baseret på et LSTM tilbagevendende neuralt netværk, optimeret til at genkende hele strenge og giver mulighed for en markant stigning i nøjagtigheden. Færdiglavede trænede modeller udgives til 123 sprog. For at optimere ydeevnen tilbydes moduler, der bruger OpenMP og AVX2, AVX eller SSE4.1 SIMD instruktioner.
Tilføjet muligheden for at output i XML-format HØJ (Analyseret layout og tekstobjekt). For at bruge dette format, skal du køre programmet som "tessaract image_name alto output_dir";
Tilføjet nye gengivelsesmoduler LSTMBox og WordStrBox, hvilket forenkler motortræning;
Tilføjet understøttelse af pseudografik i hOCR (HTML) output;
Tilføjet alternative scripts skrevet i Python til træning af motoren baseret på maskinlæring;
Udvidede optimeringer ved hjælp af AVX, AVX2 og SSE instruktioner;
OpenMP-understøttelse er som standard deaktiveret pga problemer med produktivitet;
Tilføjet understøttelse af hvide og sorte lister i LSTM-motoren;