Udgivelsen af det optiske tekstgenkendelsessystem Tesseract 5.2 er blevet offentliggjort, som understøtter genkendelse af UTF-8-tegn og tekster på mere end 100 sprog, herunder russisk, kasakhisk, hviderussisk og ukrainsk. Resultatet kan gemmes både i klartekst og i HTML (hOCR), ALTO (XML), PDF og TSV formater. I første omgang blev systemet oprettet i 1985-1995 i laboratoriet hos Hewlett Packard, i 2005 blev koden åbnet under Apache-licensen og videreudviklet med deltagelse af Google-medarbejdere. Kildeteksterne til projektet distribueres under Apache 2.0-licensen.
Tesseract inkluderer et konsolværktøj og libtesseract-biblioteket til indlejring af OCR-funktionalitet i andre applikationer. Tredjeparts GUI-grænseflader, der understøtter Tesseract, inkluderer gImageReader, VietOCR og YAGF. Der tilbydes to genkendelsesmotorer: en klassisk, der genkender tekst på niveau med individuelle karaktermønstre, og en ny baseret på brugen af et maskinlæringssystem baseret på et LSTM tilbagevendende neuralt netværk, optimeret til at genkende hele strenge og giver mulighed for en markant stigning i nøjagtigheden. Færdiglavede trænede modeller er blevet udgivet til 123 sprog. For at optimere ydeevnen tilbydes moduler, der bruger OpenMP og SIMD instruktioner AVX2, AVX, AVX512F, NEON eller SSE4.1.
Vigtigste forbedringer i Tesseract 5.2:
- Tilføjede optimeringer implementeret ved hjælp af Intel AVX512F instruktioner.
- C API implementerer en funktion til at initialisere tesseract med indlæsning af en maskinindlæringsmodel fra hukommelsen.
- Tilføjet parameteren invert_threshold, som bestemmer niveauet for inversion af tekststrenge. Standardværdien er 0.7. For at deaktivere inversion skal du indstille værdien til 0.
- Forbedret behandling af meget store dokumenter på 32-bit værter.
- Overgangen er sket fra at bruge std::regex-funktioner til std::string.
- Forbedrede build-scripts til Autotools, CMake og kontinuerlige integrationssystemer.
Kilde: opennet.ru