Release av Tesseract 5.0 textigenkänningssystem

Utgivningen av det optiska textigenkänningssystemet Tesseract 4.1 har publicerats, vilket stöder igenkänning av UTF-8-tecken och texter på mer än 100 språk, inklusive ryska, kazakiska, vitryska och ukrainska. Resultatet kan sparas i vanlig text eller i HTML (hOCR), ALTO (XML), PDF och TSV-format. Systemet skapades ursprungligen 1985-1995 i Hewlett Packard-laboratoriet; 2005 öppnades koden under Apache-licensen och vidareutvecklades med deltagande av Googles anställda. Källkoden för projektet distribueras under Apache 2.0-licensen.

Tesseract inkluderar ett konsolverktyg och libtesseract-biblioteket för att bädda in OCR-funktionalitet i andra applikationer. Tredjeparts GUI-gränssnitt som stöder Tesseract inkluderar gImageReader, VietOCR och YAGF. Två igenkänningsmotorer erbjuds: en klassisk som känner igen text på nivån med individuella karaktärsmönster, och en ny som bygger på användningen av ett maskininlärningssystem baserat på ett LSTM återkommande neuralt nätverk, optimerat för att känna igen hela strängar och möjliggör en betydande ökning av noggrannheten. Färdiga utbildade modeller har publicerats för 123 språk. För att optimera prestanda erbjuds moduler som använder OpenMP och SIMD instruktioner AVX2, AVX, NEON eller SSE4.1.

Stora förbättringar i Tesseract 5.0:

  • En betydande förändring av versionsnumret beror på ändringar som gjorts i API:n som bryter kompatibiliteten. I synnerhet är det allmänt tillgängliga libtesseract API inte längre kopplat till de proprietära GenericVector och STRING datatyperna, till förmån för std::string och std::vector.
  • Källtextträdet har omorganiserats. Public header-filer har flyttats till katalogen include/tesseract.
  • Minneshanteringen har gjorts om, alla malloc- och gratissamtal har ersatts med C++-kod. En generell modernisering av koden har genomförts.
  • Lade till optimeringar för ARM- och ARM64-arkitekturer; ARM NEON-instruktioner används för att påskynda beräkningar. Prestandaoptimering som är gemensam för alla arkitekturer har genomförts.
  • Nya lägen för träningsmodeller och textigenkänning baserade på användning av flyttalsberäkningar har implementerats. De nya lägena erbjuder högre prestanda och lägre minnesförbrukning. I LSTM-motorn är float32 snabbläge aktiverat som standard.
  • En övergång har gjorts till att använda Unicode-normalisering med NFC-formuläret (Normalization Form Canonical).
  • Lade till ett alternativ för att konfigurera loggdetaljer (--loglevel).
  • Byggsystemet baserat på Autotools har designats om och bytts till att bygga i icke-rekursivt läge.
  • "Master"-grenen i Git har bytt namn till "main".
  • Tillagt stöd för nya versioner av macOS- och Apple-system baserade på M1-kretsen.

    Källa: opennet.ru

Lägg en kommentar