Ngaleupaskeun sistem pangakuan téks Tesseract 4.1

Disayagikeun sékrési sistem pangakuan téks optik Tesseract 4.1, ngarojong pangakuan karakter UTF-8 jeung téks dina leuwih ti 100 basa, kaasup Rusia, Kazakh, Belarusian jeung Ukraina. Hasilna tiasa disimpen dina téks polos atanapi dina format HTML (hOCR), ALTO (XML), PDF sareng TSV. Sistem ieu mimitina diciptakeun dina 1985-1995 di laboratorium Hewlett Packard; dina taun 2005, kodeu dibuka dina lisénsi Apache sareng dikembangkeun deui kalayan partisipasi karyawan Google. Sumber proyék nyebar dilisensikeun dina Apache 2.0.

Tesseract ngawengku utilitas konsol jeung perpustakaan libtesseract pikeun embedding fungsionalitas OCR kana aplikasi sejenna. Ti pihak katilu nu ngarojong Tesseract panganteur GUI anjeun tiasa catetan gImageReader, VietOCR и YAGF. Dua mesin pangenalan ditawarkeun: klasik anu ngakuan téks dina tingkat pola karakter individu, sareng anu anyar dumasar kana panggunaan sistem pembelajaran mesin dumasar kana jaringan neural LSTM anu ngulang, dioptimalkeun pikeun ngenalkeun sadayana senar sareng ngamungkinkeun pikeun a kanaékan signifikan dina akurasi. siap-dijieun model dilatih diterbitkeun pikeun 123 basa. Pikeun ngaoptimalkeun kinerja, modul ngagunakeun OpenMP na AVX2, AVX atanapi SSE4.1 parentah SIMD ditawarkeun.

utama pamutahiran dina Tesseract 4.1:

  • Ditambahkeun kamampuan pikeun kaluaran dina format XML Alto (Analisis Layout jeung Téks Objék). Pikeun ngagunakeun format ieu, anjeun kedah ngajalankeun aplikasi salaku "tessarac image_name alto output_dir";
  • Ditambahkeun modul rendering anyar LSTMBox na WordStrBox, nyederhanakeun latihan mesin;
  • Ditambahkeun dukungan pikeun pseudographics dina kaluaran hOCR (HTML);
  • Nambahkeun skrip alternatif anu ditulis dina Python pikeun ngalatih mesin dumasar kana mesin diajar;
  • optimizations dimekarkeun maké AVX, AVX2 jeung parentah SSE;
  • Dukungan OpenMP ditumpurkeun sacara standar kusabab masalah kalawan produktivitas;
  • Ditambahkeun dukungan pikeun daptar bodas sareng hideung dina mesin LSTM;
  • Ningkatkeun skrip ngawangun dumasar kana Cmake.

sumber: opennet.ru

Tambahkeun komentar