🥇Wydanie systemu rozpoznawania tekstu Tesseract 5.1

Ukazała się premiera systemu optycznego rozpoznawania tekstu Tesseract 5.1, obsługującego rozpoznawanie znaków UTF-8 i tekstów w ponad 100 językach, w tym rosyjskim, kazachskim, białoruskim i ukraińskim. Wynik można zapisać w postaci zwykłego tekstu lub w formatach HTML (hOCR), ALTO (XML), PDF i TSV. System pierwotnie powstawał w latach 1985-1995 w laboratorium Hewlett Packard, w 2005 roku kod został otwarty na licencji Apache i był dalej rozwijany przy udziale pracowników Google. Kod źródłowy projektu rozpowszechniany jest na licencji Apache 2.0.

Tesseract zawiera narzędzie konsoli i bibliotekę libtesseract do osadzania funkcji rozpoznawania tekstu w innych aplikacjach. Interfejsy GUI innych firm obsługujące Tesseract obejmują gImageReader, VietOCR i YAGF. Oferowane są dwa silniki rozpoznawania: klasyczny, który rozpoznaje tekst na poziomie pojedynczych szablonów znaków, oraz nowy, oparty na wykorzystaniu systemu uczenia maszynowego opartego na rekurencyjnej sieci neuronowej LSTM, zoptymalizowany pod kątem rozpoznawania całych linii i umożliwiający znaczny wzrost dokładności. Gotowe, wytrenowane modele są publikowane dla 123 języków. Aby zoptymalizować wydajność, oferowane są moduły, które wykorzystują instrukcje OpenMP i SIMD AVX2, AVX, NEON lub SSE4.1.

Główne ulepszenia w Tesseract 5.1:

Wprowadzono możliwość przetwarzania obszarów zawierających obrazy i linie podczas eksportowania do formatów ALTO, hOCR i tekstowych.
Dodano nowy parametr curl_timeout lkz curl_easy_setop.
Ulepszony system kompilacji.
Wykonano prace mające na celu usunięcie nieużywanego kodu
Naprawiono awarie spowodowane nieprawidłową obsługą wskaźników null w klasie PageIterator::Orientation.

Źródło: opennet.ru

Wydanie systemu rozpoznawania tekstu Tesseract 5.1

ProHoster