Frigivelse af tekstgenkendelsessystemet Tesseract 5.2

Udgivelsen af ​​det optiske tekstgenkendelsessystem Tesseract 5.2 er blevet offentliggjort, som understøtter genkendelse af UTF-8-tegn og tekster på mere end 100 sprog, herunder russisk, kasakhisk, hviderussisk og ukrainsk. Resultatet kan gemmes både i klartekst og i HTML (hOCR), ALTO (XML), PDF og TSV formater. I første omgang blev systemet oprettet i 1985-1995 i laboratoriet hos Hewlett Packard, i 2005 blev koden åbnet under Apache-licensen og videreudviklet med deltagelse af Google-medarbejdere. Kildeteksterne til projektet distribueres under Apache 2.0-licensen.

Tesseract inkluderer et konsolværktøj og libtesseract-biblioteket til indlejring af OCR-funktionalitet i andre applikationer. Tredjeparts GUI-grænseflader, der understøtter Tesseract, inkluderer gImageReader, VietOCR og YAGF. Der tilbydes to genkendelsesmotorer: en klassisk, der genkender tekst på niveau med individuelle karaktermønstre, og en ny baseret på brugen af ​​et maskinlæringssystem baseret på et LSTM tilbagevendende neuralt netværk, optimeret til at genkende hele strenge og giver mulighed for en markant stigning i nøjagtigheden. Færdiglavede trænede modeller er blevet udgivet til 123 sprog. For at optimere ydeevnen tilbydes moduler, der bruger OpenMP og SIMD instruktioner AVX2, AVX, AVX512F, NEON eller SSE4.1.

Vigtigste forbedringer i Tesseract 5.2:

  • Tilføjede optimeringer implementeret ved hjælp af Intel AVX512F instruktioner.
  • C API implementerer en funktion til at initialisere tesseract med indlæsning af en maskinindlæringsmodel fra hukommelsen.
  • Tilføjet parameteren invert_threshold, som bestemmer niveauet for inversion af tekststrenge. Standardværdien er 0.7. For at deaktivere inversion skal du indstille værdien til 0.
  • Forbedret behandling af meget store dokumenter på 32-bit værter.
  • Overgangen er sket fra at bruge std::regex-funktioner til std::string.
  • Forbedrede build-scripts til Autotools, CMake og kontinuerlige integrationssystemer.

    Kilde: opennet.ru

Tilføj en kommentar