Wydanie systemu rozpoznawania tekstu Tesseract 5.3.4

Ukazała się premiera systemu optycznego rozpoznawania tekstu Tesseract 5.3.4, obsługującego rozpoznawanie znaków UTF-8 i tekstów w ponad 100 językach, w tym rosyjskim, kazachskim, białoruskim i ukraińskim. Wynik można zapisać w postaci zwykłego tekstu lub w formatach HTML (hOCR), ALTO (XML), PDF i TSV. System pierwotnie powstawał w latach 1985-1995 w laboratorium Hewlett Packard, w 2005 roku kod został otwarty na licencji Apache i był dalej rozwijany przy udziale pracowników Google. Kod źródłowy projektu rozpowszechniany jest na licencji Apache 2.0.

Tesseract zawiera narzędzie konsolowe i bibliotekę libtesseract umożliwiające osadzanie funkcji OCR w innych aplikacjach. Interfejsy GUI innych firm obsługujące Tesseract obejmują gImageReader, VietOCR i YAGF. Oferowane są dwa silniki rozpoznawania: klasyczny rozpoznający tekst na poziomie poszczególnych wzorców znaków oraz nowy oparty na wykorzystaniu systemu uczenia maszynowego opartego na rekurencyjnej sieci neuronowej LSTM, zoptymalizowanej pod kątem rozpoznawania całych ciągów znaków i umożliwiającej znaczny wzrost dokładności. Gotowe, wyszkolone modele zostały opublikowane dla 123 języków. Aby zoptymalizować wydajność, oferowane są moduły wykorzystujące instrukcje OpenMP i SIMD AVX2, AVX, AVX512F, NEON lub SSE4.1.

Główne ulepszenia:

  • Poprawione rozpoznawanie obrazu po adresie URL przy pobieraniu pliku przy użyciu biblioteki libcurl. Podczas ładowania ustawiany jest nagłówek User-Agent. Dodano nowy parametr curl_cookiefile umożliwiający korzystanie z pliku cookie.
  • Serwer ScrollView używa protokołu TCP jako preferowanego protokołu.
  • W przypadku użycia polecenia „combine_tessdata -d” dane wyjściowe są dostarczane na standardowe wyjście zamiast na stderr.
  • Naprawiono problemy z kompilacją podczas korzystania z autoconf i clang.

Źródło: opennet.ru

Dodaj komentarz