Ngaleupaskeun sistem pangakuan téks Tesseract 5.1

Pelepasan sistem pangakuan téks optik Tesseract 5.1 parantos diterbitkeun, ngadukung pangakuan karakter sareng téks UTF-8 dina langkung ti 100 basa, kalebet Rusia, Kazakh, Belarusian sareng Ukrania. Hasilna tiasa disimpen dina téks polos atanapi dina format HTML (hOCR), ALTO (XML), PDF sareng TSV. Sistem ieu mimitina diciptakeun dina 1985-1995 di laboratorium Hewlett Packard; dina taun 2005, kodeu dibuka dina lisénsi Apache sareng dikembangkeun deui kalayan partisipasi karyawan Google. Kodeu sumber proyék disebarkeun dina lisénsi Apache 2.0.

Tesseract ngawengku utilitas konsol jeung perpustakaan libtesseract pikeun embedding fungsionalitas OCR kana aplikasi sejenna. Antarmuka GUI pihak katilu anu ngadukung Tesseract kalebet gImageReader, VietOCR sareng YAGF. Dua mesin pangenalan ditawarkeun: klasik anu ngakuan téks dina tingkat pola karakter individu, sareng anu anyar dumasar kana panggunaan sistem pembelajaran mesin dumasar kana jaringan neural LSTM anu ngulang, dioptimalkeun pikeun ngenalkeun sadayana senar sareng ngamungkinkeun pikeun a kanaékan signifikan dina akurasi. Modél terlatih siap-siap parantos diterbitkeun pikeun 123 basa. Pikeun ngaoptimalkeun kinerja, ditawarkeun modul ngagunakeun OpenMP na SIMD parentah AVX2, AVX, NEON atanapi SSE4.1.

Perbaikan utama dina Tesseract 5.1:

  • Kamampuhan pikeun ngolah daérah kalayan gambar sareng garis nalika kaluaran dina format ALTO, hOCR sareng téks parantos dilaksanakeun.
  • Ditambahkeun parameter anyar curl_timeout lkz curl_easy_setop.
  • Sistim ngawangun ningkat.
  • Pagawean parantos dilakukeun pikeun ngahapus kode anu henteu dianggo
  • Ngalereskeun kacilakaan anu disababkeun ku pananganan null pointer anu salah dina PageIterator:: kelas Orientasi.

sumber: opennet.ru

Tambahkeun komentar