Tuuina atu o le faiga e iloagofie ai tusitusiga Tesseract 5.1

O le tatalaina o le Tesseract 5.1 opitika faiga e iloagofie ai tusitusiga ua lomia, lagolagoina le aloaia o UTF-8 mataitusi ma tusitusiga i le silia ma le 100 gagana, e aofia ai Rusia, Kazakh, Belarusian ma Ukrainian. E mafai ona fa'asaoina le fa'ai'uga i tusitusiga manino po'o le HTML (hOCR), ALTO (XML), PDF ma TSV formats. O le faiga na muai faia i le 1985-1995 i le falesuesue a Hewlett Packard; i le 2005, na tatalaina ai le code i lalo o le laisene Apache ma sa faʻalauteleina atili ma le auai o tagata faigaluega Google. O le faʻailoga autu o le poloketi o loʻo tufatufa atu i lalo ole laisene Apache 2.0.

Tesseract e aofia ai se faʻaoga faʻamafanafana ma le faletusi libtesseract mo le faʻapipiʻiina o galuega OCR i isi tusi talosaga. O feso'ota'iga GUI lona tolu e lagolagoina Tesseract e aofia ai le gImageReader, VietOCR ma le YAGF. E lua masini fa'ailoa e ofoina atu: o se mea masani e iloa ai tusitusiga i le tulaga o fa'ata'ita'iga o tagata ta'ito'atasi, ma se mea fou e fa'avae i luga o le fa'aogaina o se masini a'oa'oga fa'avae i luga ole LSTM feso'ota'iga neural faifaipea, fa'amalieina mo le iloaina o manoa atoa ma fa'ataga mo se matua faateleina i le sa'o. O fa'ata'ita'iga a'oa'oina ua saunia ua fa'asalalauina mo gagana e 123. Ina ia faʻamalieina le faʻatinoga, faʻaoga faʻaoga OpenMP ma faʻatonuga SIMD AVX2, AVX, NEON poʻo SSE4.1 e ofoina atu.

Faʻaleleia atili ile Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Fa'aleleia faiga fau.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

puna: opennet.ru

Faaopoopo i ai se faamatalaga