Frigivelse af tekstgenkendelsessystemet Tesseract 5.3.4

Udgivelsen af ​​det optiske tekstgenkendelsessystem Tesseract 5.3.4 er blevet offentliggjort, som understøtter genkendelse af UTF-8-tegn og tekster på mere end 100 sprog, herunder russisk, kasakhisk, hviderussisk og ukrainsk. Resultatet kan gemmes både i klartekst og i HTML (hOCR), ALTO (XML), PDF og TSV formater. I første omgang blev systemet oprettet i 1985-1995 i laboratoriet hos Hewlett Packard, i 2005 blev koden åbnet under Apache-licensen og videreudviklet med deltagelse af Google-medarbejdere. Kildeteksterne til projektet distribueres under Apache 2.0-licensen.

Tesseract inkluderer et konsolværktøj og libtesseract-biblioteket til indlejring af OCR-funktionalitet i andre applikationer. Tredjeparts GUI-grænseflader, der understøtter Tesseract, inkluderer gImageReader, VietOCR og YAGF. Der tilbydes to genkendelsesmotorer: en klassisk, der genkender tekst på niveau med individuelle karaktermønstre, og en ny baseret på brugen af ​​et maskinlæringssystem baseret på et LSTM tilbagevendende neuralt netværk, optimeret til at genkende hele strenge og giver mulighed for en markant stigning i nøjagtigheden. Færdiglavede trænede modeller er blevet udgivet til 123 sprog. For at optimere ydeevnen tilbydes moduler, der bruger OpenMP og SIMD instruktioner AVX2, AVX, AVX512F, NEON eller SSE4.1.

Vigtigste forbedringer:

  • Forbedret billedgenkendelse med URL med fildownload ved hjælp af libcurl-biblioteket. Ved indlæsning er User-Agent-headeren indstillet. Tilføjet ny parameter curl_cookiefile til brug af en cookie-fil.
  • ScrollView-serveren bruger TCP som sin foretrukne protokol.
  • Når du bruger kommandoen "combine_tessdata -d", leveres output til stdout i stedet for stderr.
  • Rettede byggeproblemer ved brug af autoconf og clang.

Kilde: opennet.ru

Tilføj en kommentar