Release av Tesseract 5.3.4 textigenkänningssystem

Utgivningen av det optiska textigenkänningssystemet Tesseract 5.3.4 har publicerats, vilket stöder igenkänning av UTF-8-tecken och texter på mer än 100 språk, inklusive ryska, kazakiska, vitryska och ukrainska. Resultatet kan sparas i vanlig text eller i HTML (hOCR), ALTO (XML), PDF och TSV-format. Systemet skapades ursprungligen 1985-1995 i Hewlett Packard-laboratoriet; 2005 öppnades koden under Apache-licensen och vidareutvecklades med deltagande av Googles anställda. Källkoden för projektet distribueras under Apache 2.0-licensen.

Tesseract inkluderar ett konsolverktyg och libtesseract-biblioteket för att bädda in OCR-funktionalitet i andra applikationer. Tredjeparts GUI-gränssnitt som stöder Tesseract inkluderar gImageReader, VietOCR och YAGF. Två igenkänningsmotorer erbjuds: en klassisk som känner igen text på nivån med individuella karaktärsmönster, och en ny som bygger på användningen av ett maskininlärningssystem baserat på ett LSTM återkommande neuralt nätverk, optimerat för att känna igen hela strängar och möjliggör en betydande ökning av noggrannheten. Färdiga utbildade modeller har publicerats för 123 språk. För att optimera prestanda erbjuds moduler som använder OpenMP och SIMD instruktioner AVX2, AVX, AVX512F, NEON eller SSE4.1.

Huvudsakliga förbättringar:

  • Förbättrad bildigenkänning genom URL med filnedladdning med libcurl-biblioteket. Vid laddning ställs User-Agent-huvudet in. Lade till ny parameter curl_cookiefile för att använda en cookie-fil.
  • ScrollView-servern använder TCP som sitt föredragna protokoll.
  • När du använder kommandot "combine_tessdata -d" ges utdata till stdout istället för stderr.
  • Fixade byggproblem vid användning av autoconf och clang.

Källa: opennet.ru

Lägg en kommentar