Utgivelse av tekstgjenkjenningssystemet Tesseract 4.1

Forberedt utgivelse av optisk tekstgjenkjenningssystem Tesseract 4.1, som støtter gjenkjenning av UTF-8-tegn og tekster på mer enn 100 språk, inkludert russisk, kasakhisk, hviterussisk og ukrainsk. Resultatet kan lagres i ren tekst eller i HTML (hOCR), ALTO (XML), PDF og TSV formater. Systemet ble opprinnelig opprettet i 1985-1995 i Hewlett Packard-laboratoriet; i 2005 ble koden åpnet under Apache-lisensen og ble videreutviklet med deltakelse av Google-ansatte. Prosjektkilder spre lisensiert under Apache 2.0.

Tesseract inkluderer et konsollverktøy og libtesseract-biblioteket for å bygge inn OCR-funksjonalitet i andre applikasjoner. Fra tredjeparter som støtter Tesseract GUI-grensesnitt du kan merke gImageReader, VietOCR и YAGF. To gjenkjenningsmotorer tilbys: en klassisk som gjenkjenner tekst på nivå med individuelle tegnmønstre, og en ny basert på bruk av et maskinlæringssystem basert på et LSTM tilbakevendende nevralt nettverk, optimert for å gjenkjenne hele strenger og muliggjøre en betydelig økning i nøyaktighet. Ferdige opplærte modeller er publisert for 123 språk. For å optimalisere ytelsen tilbys moduler som bruker OpenMP og AVX2, AVX eller SSE4.1 SIMD-instruksjoner.

Den viktigste forbedringer i Tesseract 4.1:

  • Lagt til muligheten til å skrive ut i XML-format HØY (Analysert layout og tekstobjekt). For å bruke dette formatet, bør du kjøre programmet som "tessaract image_name alto output_dir";
  • Lagt til nye gjengivelsesmoduler LSTMBox og WordStrBox, noe som forenkler motoropplæringen;
  • Lagt til støtte for pseudografikk i hOCR (HTML) utgang;
  • Lagt til alternative skript skrevet i Python for opplæring av motoren basert på maskinlæring;
  • Utvidede optimaliseringer ved bruk av AVX-, AVX2- og SSE-instruksjoner;
  • OpenMP-støtte er deaktivert som standard pga problemer med produktivitet;
  • Lagt til støtte for hvite og svarte lister i LSTM-motoren;
  • Forbedrede byggeskript basert på Cmake.

Kilde: opennet.ru

Legg til en kommentar