Ngaleupaskeun sistem pangakuan téks Tesseract 5.3.4

Pelepasan sistem pangakuan téks optik Tesseract 5.3.4 parantos diterbitkeun, ngadukung pangakuan karakter sareng téks UTF-8 dina langkung ti 100 basa, kalebet Rusia, Kazakh, Belarusian sareng Ukrania. Hasilna tiasa disimpen dina téks polos atanapi dina format HTML (hOCR), ALTO (XML), PDF sareng TSV. Sistem ieu mimitina diciptakeun dina 1985-1995 di laboratorium Hewlett Packard; dina taun 2005, kodeu dibuka dina lisénsi Apache sareng dikembangkeun deui kalayan partisipasi karyawan Google. Kodeu sumber proyék disebarkeun dina lisénsi Apache 2.0.

Tesseract ngawengku utilitas konsol jeung perpustakaan libtesseract pikeun embedding fungsionalitas OCR kana aplikasi sejenna. Antarmuka GUI pihak katilu anu ngadukung Tesseract kalebet gImageReader, VietOCR sareng YAGF. Dua mesin pangenalan ditawarkeun: klasik anu ngakuan téks dina tingkat pola karakter individu, sareng anu anyar dumasar kana panggunaan sistem pembelajaran mesin dumasar kana jaringan neural LSTM anu ngulang, dioptimalkeun pikeun ngenalkeun sadayana senar sareng ngamungkinkeun pikeun a kanaékan signifikan dina akurasi. Modél terlatih siap-siap parantos diterbitkeun pikeun 123 basa. Pikeun ngaoptimalkeun kinerja, ditawarkeun modul ngagunakeun OpenMP na SIMD parentah AVX2, AVX, AVX512F, NEON atanapi SSE4.1.

Perbaikan utama:

  • Ningkatkeun pangakuan gambar ku URL kalayan undeuran file nganggo perpustakaan libcurl. Nalika ngamuat, lulugu Pamaké-Agén disetel. Ditambahkeun parameter curl_cookiefile anyar pikeun ngagunakeun file cookie.
  • Pangladén ScrollView nganggo TCP salaku protokol anu dipikaresep.
  • Lamun ngagunakeun "combine_tessdata -d" paréntah, kaluaran disadiakeun pikeun stdout tinimbang stderr.
  • Ngalereskeun masalah ngawangun nalika nganggo autoconf sareng clang.

sumber: opennet.ru

Tambahkeun komentar