Utgivelse av tekstgjenkjenningssystemet Tesseract 5.2

Utgivelsen av det optiske tekstgjenkjenningssystemet Tesseract 5.2 er publisert, og støtter gjenkjenning av UTF-8-tegn og tekster på mer enn 100 språk, inkludert russisk, kasakhisk, hviterussisk og ukrainsk. Resultatet kan lagres i ren tekst eller i HTML (hOCR), ALTO (XML), PDF og TSV formater. Systemet ble opprinnelig opprettet i 1985-1995 i Hewlett Packard-laboratoriet; i 2005 ble koden åpnet under Apache-lisensen og ble videreutviklet med deltakelse av Google-ansatte. Kildekoden til prosjektet er distribuert under Apache 2.0-lisensen.

Tesseract inkluderer et konsollverktøy og libtesseract-biblioteket for å bygge inn OCR-funksjonalitet i andre applikasjoner. Tredjeparts GUI-grensesnitt som støtter Tesseract inkluderer gImageReader, VietOCR og YAGF. To gjenkjenningsmotorer tilbys: en klassisk som gjenkjenner tekst på nivå med individuelle tegnmønstre, og en ny basert på bruk av et maskinlæringssystem basert på et LSTM tilbakevendende nevralt nettverk, optimert for å gjenkjenne hele strenger og muliggjøre en betydelig økning i nøyaktighet. Ferdige opplærte modeller er publisert for 123 språk. For å optimalisere ytelsen tilbys moduler som bruker OpenMP og SIMD-instruksjoner AVX2, AVX, AVX512F, NEON eller SSE4.1.

Store forbedringer i Tesseract 5.2:

  • Lagt til optimaliseringer implementert ved hjelp av Intel AVX512F-instruksjoner.
  • C API implementerer en funksjon for å initialisere tesseract med å laste en maskinlæringsmodell fra minnet.
  • La til invert_threshold-parameteren, som bestemmer nivået for inversjon av tekststrenger. Standardverdien er 0.7. For å deaktivere inversjon, sett verdien til 0.
  • Forbedret behandling av svært store dokumenter på 32-bits verter.
  • Overgangen er gjort fra å bruke std::regex-funksjoner til std::string.
  • Forbedrede byggeskripter for Autotools, CMake og kontinuerlige integrasjonssystemer.

    Kilde: opennet.ru

Legg til en kommentar