Release av Tesseract 5.2 textigenkänningssystem

Utgivningen av det optiska textigenkänningssystemet Tesseract 5.2 har publicerats, vilket stöder igenkänning av UTF-8-tecken och texter på mer än 100 språk, inklusive ryska, kazakiska, vitryska och ukrainska. Resultatet kan sparas i vanlig text eller i HTML (hOCR), ALTO (XML), PDF och TSV-format. Systemet skapades ursprungligen 1985-1995 i Hewlett Packard-laboratoriet; 2005 öppnades koden under Apache-licensen och vidareutvecklades med deltagande av Googles anställda. Källkoden för projektet distribueras under Apache 2.0-licensen.

Tesseract inkluderar ett konsolverktyg och libtesseract-biblioteket för att bädda in OCR-funktionalitet i andra applikationer. Tredjeparts GUI-gränssnitt som stöder Tesseract inkluderar gImageReader, VietOCR och YAGF. Två igenkänningsmotorer erbjuds: en klassisk som känner igen text på nivån med individuella karaktärsmönster, och en ny som bygger på användningen av ett maskininlärningssystem baserat på ett LSTM återkommande neuralt nätverk, optimerat för att känna igen hela strängar och möjliggör en betydande ökning av noggrannheten. Färdiga utbildade modeller har publicerats för 123 språk. För att optimera prestanda erbjuds moduler som använder OpenMP och SIMD instruktioner AVX2, AVX, AVX512F, NEON eller SSE4.1.

Stora förbättringar i Tesseract 5.2:

  • Lade till optimeringar implementerade med Intel AVX512F instruktioner.
  • C API implementerar en funktion för att initiera tesseract med att ladda en maskininlärningsmodell från minnet.
  • Lade till parametern invert_threshold, som bestämmer nivån på invertering av textsträngar. Standardvärdet är 0.7. För att inaktivera inversion, ställ in värdet på 0.
  • Förbättrad bearbetning av mycket stora dokument på 32-bitars värdar.
  • Övergången har gjorts från att använda std::regex-funktioner till std::string.
  • Förbättrade byggskript för Autotools, CMake och kontinuerliga integrationssystem.

    Källa: opennet.ru

Lägg en kommentar