Release av Tesseract 5.1 textigenkänningssystem

Utgivningen av det optiska textigenkänningssystemet Tesseract 5.1 har publicerats, vilket stöder igenkänning av UTF-8-tecken och texter på mer än 100 språk, inklusive ryska, kazakiska, vitryska och ukrainska. Resultatet kan sparas i vanlig text eller i HTML (hOCR), ALTO (XML), PDF och TSV-format. Systemet skapades ursprungligen 1985-1995 i Hewlett Packard-laboratoriet; 2005 öppnades koden under Apache-licensen och vidareutvecklades med deltagande av Googles anställda. Källkoden för projektet distribueras under Apache 2.0-licensen.

Tesseract inkluderar ett konsolverktyg och libtesseract-biblioteket för att bädda in OCR-funktionalitet i andra applikationer. Tredjeparts GUI-gränssnitt som stöder Tesseract inkluderar gImageReader, VietOCR och YAGF. Två igenkänningsmotorer erbjuds: en klassisk som känner igen text på nivån med individuella karaktärsmönster, och en ny som bygger på användningen av ett maskininlärningssystem baserat på ett LSTM återkommande neuralt nätverk, optimerat för att känna igen hela strängar och möjliggör en betydande ökning av noggrannheten. Färdiga utbildade modeller har publicerats för 123 språk. För att optimera prestanda erbjuds moduler som använder OpenMP och SIMD instruktioner AVX2, AVX, NEON eller SSE4.1.

Stora förbättringar i Tesseract 5.1:

  • Möjligheten att bearbeta områden med bilder och linjer vid utmatning i ALTO-, hOCR- och textformat har implementerats.
  • Lade till ny parameter curl_timeout lkz curl_easy_setop.
  • Förbättrat byggsystem.
  • Arbete har gjorts för att ta bort oanvänd kod
  • Fixade krascher orsakade av felaktig hantering av nollpekare i klassen PageIterator::Orientation.

Källa: opennet.ru

Lägg en kommentar