Wydanie systemu rozpoznawania tekstu Tesseract 4.1

Przygotowany wydanie systemu optycznego rozpoznawania tekstu Tesserakt 4.1, obsługujący rozpoznawanie znaków i tekstów UTF-8 w ponad 100 językach, w tym rosyjskim, kazachskim, białoruskim i ukraińskim. Wynik można zapisać w postaci zwykłego tekstu lub w formatach HTML (hOCR), ALTO (XML), PDF i TSV. System pierwotnie powstawał w latach 1985-1995 w laboratorium Hewlett Packard, w 2005 roku kod został otwarty na licencji Apache i był dalej rozwijany przy udziale pracowników Google. Źródła projektu rozpowszechnianie się na licencji Apache 2.0.

Tesseract zawiera narzędzie konsolowe i bibliotekę libtesseract umożliwiające osadzanie funkcji OCR w innych aplikacjach. Od stron trzecich obsługujących Tesseract Interfejsy GUI możesz zauważyć gImageReader, Wietnam OCR и JAGF. Oferowane są dwa silniki rozpoznawania: klasyczny rozpoznający tekst na poziomie poszczególnych wzorców znaków oraz nowy oparty na wykorzystaniu systemu uczenia maszynowego opartego na rekurencyjnej sieci neuronowej LSTM, zoptymalizowanej pod kątem rozpoznawania całych ciągów znaków i umożliwiającej znaczny wzrost dokładności. Gotowe wyszkolone modele są publikowane dla 123 języków. Aby zoptymalizować wydajność, oferowane są moduły wykorzystujące instrukcje OpenMP i AVX2, AVX lub SSE4.1 SIMD.

Głównym ulepszenia w Tesserakcie 4.1:

  • Dodano możliwość wyprowadzania w formacie XML WYSOKA (Analizowany układ i obiekt tekstowy). Aby użyć tego formatu, należy uruchomić aplikację jako „tessaract nazwa_obrazu alto katalog_wyjściowy”;
  • Dodano nowe moduły renderujące LSTMBox i WordStrBox, upraszczając szkolenie silnika;
  • Dodano obsługę pseudografiki w wynikach hOCR (HTML);
  • Dodano alternatywne skrypty napisane w Pythonie do szkolenia silnika w oparciu o uczenie maszynowe;
  • Rozszerzone optymalizacje z wykorzystaniem instrukcji AVX, AVX2 i SSE;
  • Obsługa OpenMP jest domyślnie wyłączona z powodu problemy z produktywnością;
  • Dodano obsługę białych i czarnych list w silniku LSTM;
  • Ulepszone skrypty kompilacji oparte na Cmake.

Źródło: opennet.ru

Dodaj komentarz