Frigivelse af tekstgenkendelsessystemet Tesseract 5.1

Udgivelsen af ​​det optiske tekstgenkendelsessystem Tesseract 5.1 er blevet offentliggjort, som understøtter genkendelse af UTF-8-tegn og tekster på mere end 100 sprog, herunder russisk, kasakhisk, hviderussisk og ukrainsk. Resultatet kan gemmes både i klartekst og i HTML (hOCR), ALTO (XML), PDF og TSV formater. I første omgang blev systemet oprettet i 1985-1995 i laboratoriet hos Hewlett Packard, i 2005 blev koden åbnet under Apache-licensen og videreudviklet med deltagelse af Google-medarbejdere. Kildeteksterne til projektet distribueres under Apache 2.0-licensen.

Tesseract inkluderer et konsolværktøj og libtesseract-biblioteket til indlejring af OCR-funktionalitet i andre applikationer. Tesseract-understøttende tredjeparts GUI'er inkluderer gImageReader, VietOCR og YAGF. Der foreslås to genkendelsesmotorer: en klassisk, der genkender tekst på niveau med individuelle karaktermønstre, og en ny baseret på brugen af ​​et maskinlæringssystem baseret på et tilbagevendende neuralt netværk LSTM, optimeret til genkendelse af hele linjer og muliggør en markant stigning i nøjagtigheden. Klartrænede modeller er blevet udgivet til 123 sprog. For at optimere ydeevnen tilbydes moduler, der bruger OpenMP og SIMD instruktioner AVX2, AVX, NEON eller SSE4.1.

Vigtigste forbedringer i Tesseract 5.1:

  • Muligheden for at behandle områder med billeder og linjer ved output i ALTO-, hOCR- og tekstformater er implementeret.
  • Tilføjet ny parameter curl_timeout lkz curl_easy_setop.
  • Forbedret byggesystem.
  • Der er arbejdet på at fjerne ubrugt kode
  • Rettede nedbrud forårsaget af forkert håndtering af null-pointere i klassen PageIterator::Orientation.

Kilde: opennet.ru

Tilføj en kommentar