Famoahana ny rafitra famantarana ny lahatsoratra Tesseract 5.1

Navoaka ny famoahana ny Tesseract 5.1 rafitra famantarana ny lahatsoratra optika, manohana ny fanekena ireo tarehin-tsoratra sy lahatsoratra UTF-8 amin'ny fiteny 100 mahery, anisan'izany ny Rosiana, Kazakh, Belarosiana ary Okrainiana. Ny valiny dia azo tehirizina amin'ny lahatsoratra tsotra na amin'ny HTML (hOCR), ALTO (XML), PDF ary TSV. Ny rafitra dia noforonina tany am-boalohany tao amin'ny 1985-1995 tao amin'ny laboratoara Hewlett Packard; tamin'ny 2005, nosokafana teo ambanin'ny lisansa Apache ny kaody ary novolavolaina bebe kokoa niaraka tamin'ny fandraisan'ny mpiasa Google anjara. Ny kaody loharanon'ny tetikasa dia zaraina amin'ny alΓ lan'ny lisansa Apache 2.0.

Tesseract dia misy fitaovana fampiononana sy tranomboky libtesseract mba hampidirana ny fiasa OCR amin'ny rindranasa hafa. Ny interface GUI an'ny antoko fahatelo izay manohana ny Tesseract dia ahitana ny gImageReader, VietOCR ary YAGF. Motera famantarana roa no atolotra: ny iray mahazatra izay mamantatra lahatsoratra amin'ny haavon'ny lamin'ny toetran'ny tsirairay, ary ny iray vaovao mifototra amin'ny fampiasana rafitra fianarana milina mifototra amin'ny tamba-jotra neural miverimberina LSTM, natao ho an'ny fahafantarana ny tady manontolo ary mamela fitomboana lehibe amin'ny fahitsiana. Navoaka ho an'ny fiteny 123 ireo modely efa voaofana efa vita. Mba hanamafisana ny fampisehoana dia atolotra ny maody mampiasa OpenMP sy SIMD AVX2, AVX, NEON na SSE4.1.

Fanatsarana lehibe ao amin'ny Tesseract 5.1:

  • Ny fahafahana manodina faritra misy sary sy tsipika rehefa mivoaka amin'ny ALTO, hOCR ary endrika lahatsoratra dia nampiharina.
  • Nampiana parameter vaovao curl_timeout lkz curl_easy_setop.
  • Nohatsaraina rafitra fananganana.
  • Nisy asa natao hanesorana kaody tsy ampiasaina
  • Ny fianjerana raikitra vokatry ny tsy fitandremana ireo tondro tsy misy dikany ao amin'ny kilasy PageIterator::Orientation.

Source: opennet.ru

Add a comment