Utgivelse av tekstgjenkjenningssystemet Tesseract 5.1

Utgivelsen av det optiske tekstgjenkjenningssystemet Tesseract 5.1 er publisert, og støtter gjenkjenning av UTF-8-tegn og tekster på mer enn 100 språk, inkludert russisk, kasakhisk, hviterussisk og ukrainsk. Resultatet kan lagres i ren tekst eller i HTML (hOCR), ALTO (XML), PDF og TSV formater. Systemet ble opprinnelig opprettet i 1985-1995 i Hewlett Packard-laboratoriet; i 2005 ble koden åpnet under Apache-lisensen og ble videreutviklet med deltakelse av Google-ansatte. Kildekoden til prosjektet er distribuert under Apache 2.0-lisensen.

Tesseract inkluderer et konsollverktøy og libtesseract-biblioteket for å bygge inn OCR-funksjonalitet i andre applikasjoner. Tredjeparts GUI-grensesnitt som støtter Tesseract inkluderer gImageReader, VietOCR og YAGF. To gjenkjenningsmotorer tilbys: en klassisk som gjenkjenner tekst på nivå med individuelle tegnmønstre, og en ny basert på bruk av et maskinlæringssystem basert på et LSTM tilbakevendende nevralt nettverk, optimert for å gjenkjenne hele strenger og muliggjøre en betydelig økning i nøyaktighet. Ferdige trenede modeller er publisert for 123 språk. For å optimalisere ytelsen tilbys moduler som bruker OpenMP og SIMD-instruksjoner AVX2, AVX, NEON eller SSE4.1.

Store forbedringer i Tesseract 5.1:

  • Muligheten til å behandle områder med bilder og linjer ved utdata i ALTO-, hOCR- og tekstformater er implementert.
  • Lagt til ny parameter curl_timeout lkz curl_easy_setop.
  • Forbedret byggesystem.
  • Det er jobbet med å fjerne ubrukt kode
  • Rettet krasj forårsaket av feil håndtering av null-pekere i PageIterator::Orientation-klassen.

Kilde: opennet.ru

Legg til en kommentar