Utgivelse av tekstgjenkjenningssystemet Tesseract 5.0

Utgivelsen av det optiske tekstgjenkjenningssystemet Tesseract 4.1 er publisert, og støtter gjenkjenning av UTF-8-tegn og tekster på mer enn 100 språk, inkludert russisk, kasakhisk, hviterussisk og ukrainsk. Resultatet kan lagres i ren tekst eller i HTML (hOCR), ALTO (XML), PDF og TSV formater. Systemet ble opprinnelig opprettet i 1985-1995 i Hewlett Packard-laboratoriet; i 2005 ble koden åpnet under Apache-lisensen og ble videreutviklet med deltakelse av Google-ansatte. Kildekoden til prosjektet er distribuert under Apache 2.0-lisensen.

Tesseract inkluderer et konsollverktøy og libtesseract-biblioteket for å bygge inn OCR-funksjonalitet i andre applikasjoner. Tredjeparts GUI-grensesnitt som støtter Tesseract inkluderer gImageReader, VietOCR og YAGF. To gjenkjenningsmotorer tilbys: en klassisk som gjenkjenner tekst på nivå med individuelle tegnmønstre, og en ny basert på bruk av et maskinlæringssystem basert på et LSTM tilbakevendende nevralt nettverk, optimert for å gjenkjenne hele strenger og muliggjøre en betydelig økning i nøyaktighet. Ferdige trenede modeller er publisert for 123 språk. For å optimalisere ytelsen tilbys moduler som bruker OpenMP og SIMD-instruksjoner AVX2, AVX, NEON eller SSE4.1.

Store forbedringer i Tesseract 5.0:

  • En betydelig endring i versjonsnummer skyldes endringer i API-en som bryter kompatibiliteten. Spesielt er det offentlig tilgjengelige libtesseract API ikke lenger knyttet til de proprietære GenericVector- og STRING-datatypene, til fordel for std::string og std::vector.
  • Kildeteksttreet har blitt omorganisert. Offentlige topptekstfiler er flyttet til include/tesseract-katalogen.
  • Minneadministrasjon har blitt redesignet, alle malloc og gratis samtaler er erstattet med C++-kode. Det er gjennomført en generell modernisering av koden.
  • Lagt til optimaliseringer for ARM- og ARM64-arkitekturer; ARM NEON-instruksjoner brukes for å øke hastigheten på beregningene. Ytelsesoptimering felles for alle arkitekturer er utført.
  • Nye moduser for treningsmodeller og tekstgjenkjenning basert på bruk av flyttallsberegninger er implementert. De nye modusene gir høyere ytelse og lavere minneforbruk. I LSTM-motoren er float32 hurtigmodus aktivert som standard.
  • Det er gjort en overgang til å bruke Unicode-normalisering ved bruk av NFC-skjemaet (Normalization Form Canonical).
  • Lagt til et alternativ for å konfigurere loggdetaljer (--loglevel).
  • Byggesystemet basert på Autotools har blitt redesignet og byttet til å bygge i ikke-rekursiv modus.
  • "Master"-grenen i Git har blitt omdøpt til "main".
  • Lagt til støtte for nye utgivelser av macOS- og Apple-systemer basert på M1-brikken.

    Kilde: opennet.ru

Legg til en kommentar