Udgivelsen af det optiske tekstgenkendelsessystem Tesseract 5.1 er blevet offentliggjort, som understøtter genkendelse af UTF-8-tegn og tekster på mere end 100 sprog, herunder russisk, kasakhisk, hviderussisk og ukrainsk. Resultatet kan gemmes både i klartekst og i HTML (hOCR), ALTO (XML), PDF og TSV formater. I første omgang blev systemet oprettet i 1985-1995 i laboratoriet hos Hewlett Packard, i 2005 blev koden åbnet under Apache-licensen og videreudviklet med deltagelse af Google-medarbejdere. Kildeteksterne til projektet distribueres under Apache 2.0-licensen.
Tesseract inkluderer et konsolværktøj og libtesseract-biblioteket til indlejring af OCR-funktionalitet i andre applikationer. Tesseract-understøttende tredjeparts GUI'er inkluderer gImageReader, VietOCR og YAGF. Der foreslås to genkendelsesmotorer: en klassisk, der genkender tekst på niveau med individuelle karaktermønstre, og en ny baseret på brugen af et maskinlæringssystem baseret på et tilbagevendende neuralt netværk LSTM, optimeret til genkendelse af hele linjer og muliggør en markant stigning i nøjagtigheden. Klartrænede modeller er blevet udgivet til 123 sprog. For at optimere ydeevnen tilbydes moduler, der bruger OpenMP og SIMD instruktioner AVX2, AVX, NEON eller SSE4.1.
Vigtigste forbedringer i Tesseract 5.1:
- Muligheden for at behandle områder med billeder og linjer ved output i ALTO-, hOCR- og tekstformater er implementeret.
- Tilføjet ny parameter curl_timeout lkz curl_easy_setop.
- Forbedret byggesystem.
- Der er arbejdet på at fjerne ubrugt kode
- Rettede nedbrud forårsaget af forkert håndtering af null-pointere i klassen PageIterator::Orientation.
Kilde: opennet.ru