Bylo zveřejněno vydání systému optického rozpoznávání textu Tesseract 5.1, který podporuje rozpoznávání znaků a textů UTF-8 ve více než 100 jazycích, včetně ruštiny, kazaštiny, běloruštiny a ukrajinštiny. Výsledek lze uložit jak v čistém textu, tak ve formátech HTML (hOCR), ALTO (XML), PDF a TSV. Zpočátku byl systém vytvořen v letech 1985-1995 v laboratoři Hewlett Packard, v roce 2005 byl kód otevřen pod licencí Apache a dále rozvíjen za účasti zaměstnanců Google. Zdrojové texty projektu jsou šířeny pod licencí Apache 2.0.
Tesseract obsahuje obslužný program konzoly a knihovnu libtesseract pro vkládání funkcí OCR do jiných aplikací. GUI třetích stran podporující Tesseract zahrnují gImageReader, VietOCR a YAGF. Jsou navrženy dva rozpoznávací stroje: klasický, který rozpoznává text na úrovni jednotlivých vzorů znaků, a nový založený na použití systému strojového učení založeného na rekurentní neuronové síti LSTM, optimalizovaný pro rozpoznávání celých řádků a umožňující výrazné zvýšení přesnosti. Hotové trénované modely byly publikovány pro 123 jazyků. Pro optimalizaci výkonu jsou nabízeny moduly využívající OpenMP a SIMD instrukce AVX2, AVX, NEON nebo SSE4.1.
Klíčová vylepšení v Tesseract 5.1:
- Byla implementována schopnost zpracovávat oblasti s obrázky a čarami při výstupu ve formátech ALTO, hOCR a text.
- Přidán nový parametr curl_timeout lkz curl_easy_setop.
- Vylepšený systém sestavení.
- Byly provedeny práce na odstranění nepoužívaného kódu
- Opravena selhání způsobená nesprávným zpracováním nulových ukazatelů ve třídě PageIterator::Orientation.
Zdroj: opennet.ru