Rilis sistem pangenalan teks Tesseract 4.1

disiapake release saka sistem pangenalan teks optik Tesseract 4.1, ndhukung pangenalan karakter lan teks UTF-8 ing luwih saka 100 basa, kalebu Rusia, Kazakh, Belarusia lan Ukrainia. Asil bisa disimpen ing teks biasa utawa ing HTML (hOCR), ALTO (XML), PDF lan format TSV. Sistem kasebut wiwitane digawe ing taun 1985-1995 ing laboratorium Hewlett Packard; ing taun 2005, kode kasebut dibukak miturut lisensi Apache lan luwih dikembangake kanthi partisipasi karyawan Google. Sumber proyek Penyebaran dilisensi ing Apache 2.0.

Tesseract kalebu sarana console lan perpustakaan libtesseract kanggo nanem fungsi OCR menyang aplikasi liyane. Saka pihak katelu sing ndhukung Tesseract antarmuka GUI sampeyan bisa nyatet gImageReader, VietOCR ΠΈ YAGF. Rong mesin pangenalan ditawakake: sing klasik sing ngenali teks ing tingkat pola karakter individu, lan sing anyar adhedhasar panggunaan sistem pembelajaran mesin adhedhasar jaringan saraf ambalan LSTM, sing dioptimalake kanggo ngenali kabeh senar lan ngidini a Tambah pinunjul ing akurasi. Siap-digawe model dilatih diterbitake kanggo 123 basa. Kanggo ngoptimalake kinerja, modul nggunakake OpenMP lan AVX2, AVX utawa SSE4.1 instruksi SIMD ditawakake.

Utama dandan ing Tesseract 4.1:

  • Nambahake kemampuan kanggo output ing format XML ALTO (Analisis Tata Letak lan Obyek Teks). Kanggo nggunakake format iki, sampeyan kudu mbukak aplikasi minangka "tessaract image_name alto output_dir";
  • Nambahake modul rendering anyar LSTMBox lan WordStrBox, nyederhanakake latihan mesin;
  • Dhukungan ditambahake kanggo pseudographics ing output hOCR (HTML);
  • Nambahake skrip alternatif sing ditulis ing Python kanggo latihan mesin adhedhasar learning machine;
  • Optimizations ditambahi nggunakake instruksi AVX, AVX2 lan SSE;
  • Dhukungan OpenMP dipateni kanthi gawan amarga masalah kanthi produktivitas;
  • Dhukungan ditambahake kanggo dhaptar putih lan ireng ing mesin LSTM;
  • Ngapikake skrip mbangun adhedhasar Cmake.

Source: opennet.ru

Add a comment