Famoahana ny rafitra famantarana ny lahatsoratra Tesseract 5.0

Navoaka ny famoahana ny Tesseract 4.1 rafitra famantarana ny lahatsoratra optika, manohana ny fanekena ireo tarehin-tsoratra sy lahatsoratra UTF-8 amin'ny fiteny 100 mahery, anisan'izany ny Rosiana, Kazakh, Belarosiana ary Okrainiana. Ny valiny dia azo tehirizina amin'ny lahatsoratra tsotra na amin'ny HTML (hOCR), ALTO (XML), PDF ary TSV. Ny rafitra dia noforonina tany am-boalohany tao amin'ny 1985-1995 tao amin'ny laboratoara Hewlett Packard; tamin'ny 2005, nosokafana teo ambanin'ny lisansa Apache ny kaody ary novolavolaina bebe kokoa niaraka tamin'ny fandraisan'ny mpiasa Google anjara. Ny kaody loharanon'ny tetikasa dia zaraina amin'ny alΓ lan'ny lisansa Apache 2.0.

Tesseract dia misy fitaovana fampiononana sy tranomboky libtesseract mba hampidirana ny fiasa OCR amin'ny rindranasa hafa. Ny interface GUI an'ny antoko fahatelo izay manohana ny Tesseract dia ahitana ny gImageReader, VietOCR ary YAGF. Motera famantarana roa no atolotra: ny iray mahazatra izay mamantatra lahatsoratra amin'ny haavon'ny lamin'ny toetran'ny tsirairay, ary ny iray vaovao mifototra amin'ny fampiasana rafitra fianarana milina mifototra amin'ny tamba-jotra neural miverimberina LSTM, natao ho an'ny fahafantarana ny tady manontolo ary mamela fitomboana lehibe amin'ny fahitsiana. Navoaka ho an'ny fiteny 123 ireo modely efa voaofana efa vita. Mba hanamafisana ny fampisehoana dia atolotra ny maody mampiasa OpenMP sy SIMD AVX2, AVX, NEON na SSE4.1.

Fanatsarana lehibe ao amin'ny Tesseract 5.0:

  • Ny fiovana lehibe amin'ny laharan'ny dikan-dia dia vokatry ny fanovana natao tamin'ny API izay manapaka ny fifanarahana. Indrindra indrindra, ny API libtesseract azo ampahibemaso dia tsy mifamatotra amin'ny karazana angon-drakitra GenericVector sy STRING, ho an'ny std::string sy std::vector.
  • Namboarina ny hazo loharanon-tsoratra. Nafindra tao amin'ny lahatahiry tafiditra/tesseract ny rakitra loham-bahoaka.
  • Nohavaozina ny fitantanana fahatsiarovana, nosoloina kaody C++ ny antso rehetra malloc sy maimaim-poana. Nisy ny fanavaozana ankapoben'ny fehezan-dalΓ na.
  • Fanatsarana fanampiny ho an'ny maritrano ARM sy ARM64; Ny torolΓ lana ARM NEON dia ampiasaina hanafaingana ny kajy. Ny fanatsarana ny fampandehanana mahazatra amin'ny maritrano rehetra dia natao.
  • Nampiharina ny maodely vaovao ho an'ny maodely fanofanana sy ny fanekena lahatsoratra mifototra amin'ny fampiasana kajy teboka mitsingevana. Ireo maody vaovao dia manolotra fampisehoana ambony kokoa sy fanjifana fahatsiarovana ambany kokoa. Ao amin'ny motera LSTM, ny maody haingana float32 dia alefa amin'ny alΓ lan'ny default.
  • Nisy fiovana natao tamin'ny fampiasana ny fananormaliana Unicode amin'ny alΓ lan'ny endrika NFC (Normalization Form Canonical).
  • Nanampy safidy hanitsiana ny mombamomba ny log (--loglevel).
  • Ny rafitra fananganana miorina amin'ny Autotools dia novolavolaina ary navadika ho fananganana amin'ny fomba tsy miverimberina.
  • Ny sampana "master" ao amin'ny Git dia novana ho "main".
  • Fanampiana fanampiny ho an'ny famoahana vaovao ny macOS sy ny rafitra Apple mifototra amin'ny chip M1.

    Source: opennet.ru

Add a comment