Release av Tesseract 4.1 textigenkänningssystem

Beredd släpp av optiskt textigenkänningssystem Tesseract 4.1, som stöder igenkänning av UTF-8-tecken och texter på mer än 100 språk, inklusive ryska, kazakiska, vitryska och ukrainska. Resultatet kan sparas i vanlig text eller i HTML (hOCR), ALTO (XML), PDF och TSV-format. Systemet skapades ursprungligen 1985-1995 i Hewlett Packard-laboratoriet; 2005 öppnades koden under Apache-licensen och vidareutvecklades med deltagande av Googles anställda. Projektkällor sprida licensierad under Apache 2.0.

Tesseract inkluderar ett konsolverktyg och libtesseract-biblioteket för att bädda in OCR-funktionalitet i andra applikationer. Från tredje part som stödjer Tesseract GUI-gränssnitt kan du notera gImageReader, VietOCR и YAGF. Två igenkänningsmotorer erbjuds: en klassisk som känner igen text på nivån med individuella karaktärsmönster, och en ny som bygger på användningen av ett maskininlärningssystem baserat på ett LSTM återkommande neuralt nätverk, optimerat för att känna igen hela strängar och möjliggör en betydande ökning av noggrannheten. Färdiga utbildade modeller publiceras för 123 språk. För att optimera prestanda erbjuds moduler som använder OpenMP och AVX2, AVX eller SSE4.1 SIMD instruktioner.

Den huvudsakliga förbättringar i Tesseract 4.1:

  • Lade till möjligheten att skriva ut i XML-format ALT (Analyserad layout och textobjekt). För att använda detta format bör du köra programmet som "tessaract image_name alto output_dir";
  • Lade till nya renderingsmoduler LSTMBox och WordStrBox, vilket förenklar motorutbildningen;
  • Tillagt stöd för pseudografik i hOCR (HTML)-utdata;
  • Lade till alternativa skript skrivna i Python för att träna motorn baserat på maskininlärning;
  • Utökade optimeringar med AVX, AVX2 och SSE instruktioner;
  • OpenMP-stöd är inaktiverat som standard pga problem med produktivitet;
  • Tillagt stöd för vita och svarta listor i LSTM-motorn;
  • Förbättrade byggskript baserade på Cmake.

Källa: opennet.ru

Lägg en kommentar