Udgivelsen af det optiske tekstgenkendelsessystem Tesseract 5.3.4 er blevet offentliggjort, som understøtter genkendelse af UTF-8-tegn og tekster på mere end 100 sprog, herunder russisk, kasakhisk, hviderussisk og ukrainsk. Resultatet kan gemmes både i klartekst og i HTML (hOCR), ALTO (XML), PDF og TSV formater. I første omgang blev systemet oprettet i 1985-1995 i laboratoriet hos Hewlett Packard, i 2005 blev koden åbnet under Apache-licensen og videreudviklet med deltagelse af Google-medarbejdere. Kildeteksterne til projektet distribueres under Apache 2.0-licensen.
Tesseract inkluderer et konsolværktøj og libtesseract-biblioteket til indlejring af OCR-funktionalitet i andre applikationer. Tredjeparts GUI-grænseflader, der understøtter Tesseract, inkluderer gImageReader, VietOCR og YAGF. Der tilbydes to genkendelsesmotorer: en klassisk, der genkender tekst på niveau med individuelle karaktermønstre, og en ny baseret på brugen af et maskinlæringssystem baseret på et LSTM tilbagevendende neuralt netværk, optimeret til at genkende hele strenge og giver mulighed for en markant stigning i nøjagtigheden. Færdiglavede trænede modeller er blevet udgivet til 123 sprog. For at optimere ydeevnen tilbydes moduler, der bruger OpenMP og SIMD instruktioner AVX2, AVX, AVX512F, NEON eller SSE4.1.
Vigtigste forbedringer:
- Forbedret billedgenkendelse med URL med fildownload ved hjælp af libcurl-biblioteket. Ved indlæsning er User-Agent-headeren indstillet. Tilføjet ny parameter curl_cookiefile til brug af en cookie-fil.
- ScrollView-serveren bruger TCP som sin foretrukne protokol.
- Når du bruger kommandoen "combine_tessdata -d", leveres output til stdout i stedet for stderr.
- Rettede byggeproblemer ved brug af autoconf og clang.
Kilde: opennet.ru