Tuuina atu o le faiga e iloagofie ai tusitusiga Tesseract 5.0

O le tatalaina o le Tesseract 4.1 opitika faiga e iloagofie ai tusitusiga ua lomia, lagolagoina le aloaia o UTF-8 mataitusi ma tusitusiga i le silia ma le 100 gagana, e aofia ai Rusia, Kazakh, Belarusian ma Ukrainian. E mafai ona fa'asaoina le fa'ai'uga i tusitusiga manino po'o le HTML (hOCR), ALTO (XML), PDF ma TSV formats. O le faiga na muai faia i le 1985-1995 i le falesuesue a Hewlett Packard; i le 2005, na tatalaina ai le code i lalo o le laisene Apache ma sa faʻalauteleina atili ma le auai o tagata faigaluega Google. O le faʻailoga autu o le poloketi o loʻo tufatufa atu i lalo ole laisene Apache 2.0.

Tesseract e aofia ai se faʻaoga faʻamafanafana ma le faletusi libtesseract mo le faʻapipiʻiina o galuega OCR i isi tusi talosaga. O feso'ota'iga GUI lona tolu e lagolagoina Tesseract e aofia ai le gImageReader, VietOCR ma le YAGF. E lua masini fa'ailoa e ofoina atu: o se mea masani e iloa ai tusitusiga i le tulaga o fa'ata'ita'iga o tagata ta'ito'atasi, ma se mea fou e fa'avae i luga o le fa'aogaina o se masini a'oa'oga fa'avae i luga ole LSTM feso'ota'iga neural faifaipea, fa'amalieina mo le iloaina o manoa atoa ma fa'ataga mo se matua faateleina i le sa'o. O fa'ata'ita'iga a'oa'oina ua saunia ua fa'asalalauina mo gagana e 123. Ina ia faʻamalieina le faʻatinoga, faʻaoga faʻaoga OpenMP ma faʻatonuga SIMD AVX2, AVX, NEON poʻo SSE4.1 e ofoina atu.

Faʻaleleia atili ile Tesseract 5.0:

  • O se suiga tele i le numera o fa'aliliuga e mafua ona o suiga na faia i le API e motusia le fetaui. Aemaise lava, o le libtesseract API o loʻo avanoa lautele e le o toe faʻapipiʻiina i ituaiga faʻamaumauga GenericVector ma STRING, e faʻatatau i std :: string ma std :: vector.
  • Ua toe fa'atulagaina le la'au fa'aupuga. O faila fa'aulutala fa'alaua'itele ua si'i atu ile fa'ailoga aofia/tesseract.
  • Ua toe fa'afouina le pulega o manatua, ua suia uma malloc ma telefoni i le C++ code. O se fa'aonaponei lautele o le tulafono ua fa'atinoina.
  • Fa'aopoopo mea fa'apitoa mo ARM ma ARM64 fa'ata'ita'iga; ARM NEON fa'atonuga e fa'aoga e fa'avave ai fa'atatau. Ua fa'atinoina le fa'ata'ita'iina o fa'atinoga e masani ai fa'ata'ita'iga uma.
  • O auala fou mo faʻataʻitaʻiga aʻoaʻoga ma le faʻamaoniaina o tusitusiga e faʻavae i luga o le faʻaogaina o faʻatusatusaga o mataʻitusi ua faʻatinoina. O auala fou e ofoina atu le maualuga o le faʻatinoga ma le faʻaitiitia o le mafaufau. I le LSTM engine, float32 fast mode e mafai ona fa'aletonu.
  • Ua faia se suiga i le faaaogaina o le Unicode normalization e faaaoga ai le NFC (Normalization Form Canonical) fomu.
  • Ua fa'aopoopoina se filifiliga e fa'atulaga ai fa'amatalaga o ogalaau (--loglevel).
  • O le faiga faʻavae e faʻavae i luga o Autotools ua toe faʻaleleia ma suia e fausia i le tulaga e le faʻaaogaina.
  • O le "matai" lala i Git ua toe faaigoa i le "autu".
  • Faʻaopoopo le lagolago mo faʻasalalauga fou o macOS ma Apple faiga faʻavae ile M1 pu.

    puna: opennet.ru

Faaopoopo i ai se faamatalaga