Rilis sistem pengenalan teks Tesseract 5.2

Rilis sistem pengenalan teks optik Tesseract 5.2 telah diterbitkan, mendukung pengenalan karakter dan teks UTF-8 dalam lebih dari 100 bahasa, termasuk Rusia, Kazakh, Belarusia, dan Ukraina. Hasilnya dapat disimpan dalam format teks biasa atau dalam format HTML (hOCR), ALTO (XML), PDF dan TSV. Sistem ini awalnya dibuat pada tahun 1985-1995 di laboratorium Hewlett Packard, pada tahun 2005 kode dibuka di bawah lisensi Apache dan dikembangkan lebih lanjut dengan partisipasi karyawan Google. Kode sumber proyek ini didistribusikan di bawah lisensi Apache 2.0.

Tesseract menyertakan utilitas konsol dan perpustakaan libtesseract untuk menyematkan fungsionalitas OCR ke aplikasi lain. Antarmuka GUI pihak ketiga yang mendukung Tesseract termasuk gImageReader, VietOCR, dan YAGF. Dua mesin pengenalan ditawarkan: mesin klasik yang mengenali teks pada tingkat pola karakter individual, dan mesin baru berdasarkan penggunaan sistem pembelajaran mesin berdasarkan jaringan saraf berulang LSTM, dioptimalkan untuk mengenali seluruh string dan memungkinkan a peningkatan akurasi yang signifikan. Model terlatih yang sudah jadi telah diterbitkan dalam 123 bahasa. Untuk mengoptimalkan kinerja, ditawarkan modul yang menggunakan instruksi OpenMP dan SIMD AVX2, AVX, AVX512F, NEON atau SSE4.1.

Peningkatan besar pada Tesseract 5.2:

  • Pengoptimalan tambahan diimplementasikan menggunakan instruksi Intel AVX512F.
  • C API mengimplementasikan fungsi untuk menginisialisasi tesseract dengan memuat model pembelajaran mesin dari memori.
  • Menambahkan parameter invert_threshold, yang menentukan tingkat inversi string teks. Nilai defaultnya adalah 0.7. Untuk menonaktifkan inversi, setel nilainya ke 0.
  • Peningkatan pemrosesan dokumen yang sangat besar pada host 32-bit.
  • Transisi telah dilakukan dari penggunaan fungsi std::regex ke std::string.
  • Skrip build yang ditingkatkan untuk Autotools, CMake, dan sistem integrasi berkelanjutan.

    Sumber: opennet.ru

Tambah komentar