Wydanie systemu rozpoznawania tekstu Tesseract 4.1
Przygotowany wydanie systemu optycznego rozpoznawania tekstu Tesserakt 4.1, obsługujący rozpoznawanie znaków i tekstów UTF-8 w ponad 100 językach, w tym rosyjskim, kazachskim, białoruskim i ukraińskim. Wynik można zapisać w postaci zwykłego tekstu lub w formatach HTML (hOCR), ALTO (XML), PDF i TSV. System pierwotnie powstawał w latach 1985-1995 w laboratorium Hewlett Packard, w 2005 roku kod został otwarty na licencji Apache i był dalej rozwijany przy udziale pracowników Google. Źródła projektu rozpowszechnianie się na licencji Apache 2.0.
Tesseract zawiera narzędzie konsolowe i bibliotekę libtesseract umożliwiające osadzanie funkcji OCR w innych aplikacjach. Od stron trzecich obsługujących Tesseract Interfejsy GUI możesz zauważyć gImageReader, Wietnam OCR и JAGF. Oferowane są dwa silniki rozpoznawania: klasyczny rozpoznający tekst na poziomie poszczególnych wzorców znaków oraz nowy oparty na wykorzystaniu systemu uczenia maszynowego opartego na rekurencyjnej sieci neuronowej LSTM, zoptymalizowanej pod kątem rozpoznawania całych ciągów znaków i umożliwiającej znaczny wzrost dokładności. Gotowe wyszkolone modele są publikowane dla 123 języków. Aby zoptymalizować wydajność, oferowane są moduły wykorzystujące instrukcje OpenMP i AVX2, AVX lub SSE4.1 SIMD.
Dodano możliwość wyprowadzania w formacie XML WYSOKA (Analizowany układ i obiekt tekstowy). Aby użyć tego formatu, należy uruchomić aplikację jako „tessaract nazwa_obrazu alto katalog_wyjściowy”;
Dodano nowe moduły renderujące LSTMBox i WordStrBox, upraszczając szkolenie silnika;
Dodano obsługę pseudografiki w wynikach hOCR (HTML);
Dodano alternatywne skrypty napisane w Pythonie do szkolenia silnika w oparciu o uczenie maszynowe;
Rozszerzone optymalizacje z wykorzystaniem instrukcji AVX, AVX2 i SSE;
Obsługa OpenMP jest domyślnie wyłączona z powodu problemy z produktywnością;
Dodano obsługę białych i czarnych list w silniku LSTM;