Keluaran sistem pengecaman teks Tesseract 5.2

Keluaran sistem pengecaman teks optik Tesseract 5.2 telah diterbitkan, menyokong pengecaman aksara dan teks UTF-8 dalam lebih daripada 100 bahasa, termasuk Rusia, Kazakh, Belarus dan Ukraine. Hasilnya boleh disimpan dalam teks biasa atau dalam format HTML (hOCR), ALTO (XML), PDF dan TSV. Sistem ini pada asalnya dicipta pada tahun 1985-1995 di makmal Hewlett Packard; pada tahun 2005, kod itu dibuka di bawah lesen Apache dan telah dibangunkan lagi dengan penyertaan pekerja Google. Kod sumber projek diedarkan di bawah lesen Apache 2.0.

Tesseract termasuk utiliti konsol dan perpustakaan libtesseract untuk membenamkan fungsi OCR ke dalam aplikasi lain. Antara muka GUI pihak ketiga yang menyokong Tesseract termasuk gImageReader, VietOCR dan YAGF. Dua enjin pengecaman ditawarkan: enjin klasik yang mengecam teks pada tahap corak aksara individu dan yang baharu berdasarkan penggunaan sistem pembelajaran mesin berdasarkan rangkaian saraf berulang LSTM, dioptimumkan untuk mengenali keseluruhan rentetan dan membolehkan peningkatan yang ketara dalam ketepatan. Model terlatih sedia telah diterbitkan untuk 123 bahasa. Untuk mengoptimumkan prestasi, modul menggunakan OpenMP dan arahan SIMD AVX2, AVX, AVX512F, NEON atau SSE4.1 ditawarkan.

Penambahbaikan utama dalam Tesseract 5.2:

  • Pengoptimuman tambahan dilaksanakan menggunakan arahan Intel AVX512F.
  • API C melaksanakan fungsi untuk memulakan tesseract dengan memuatkan model pembelajaran mesin daripada memori.
  • Menambahkan parameter invert_threshold, yang menentukan tahap penyongsangan rentetan teks. Nilai lalai ialah 0.7. Untuk melumpuhkan penyongsangan, tetapkan nilai kepada 0.
  • Peningkatan pemprosesan dokumen yang sangat besar pada hos 32-bit.
  • Peralihan telah dibuat daripada menggunakan fungsi std::regex kepada std::string.
  • Skrip binaan yang dipertingkatkan untuk Autotools, CMake dan sistem penyepaduan berterusan.

    Sumber: opennet.ru

Tambah komen