Keluaran sistem pengecaman teks Tesseract 5.0

Keluaran sistem pengecaman teks optik Tesseract 4.1 telah diterbitkan, menyokong pengecaman aksara dan teks UTF-8 dalam lebih daripada 100 bahasa, termasuk Rusia, Kazakh, Belarus dan Ukraine. Hasilnya boleh disimpan dalam teks biasa atau dalam format HTML (hOCR), ALTO (XML), PDF dan TSV. Sistem ini pada asalnya dicipta pada tahun 1985-1995 di makmal Hewlett Packard; pada tahun 2005, kod itu dibuka di bawah lesen Apache dan telah dibangunkan lagi dengan penyertaan pekerja Google. Kod sumber projek diedarkan di bawah lesen Apache 2.0.

Tesseract termasuk utiliti konsol dan perpustakaan libtesseract untuk membenamkan fungsi OCR ke dalam aplikasi lain. Antara muka GUI pihak ketiga yang menyokong Tesseract termasuk gImageReader, VietOCR dan YAGF. Dua enjin pengecaman ditawarkan: enjin klasik yang mengecam teks pada tahap corak aksara individu dan yang baharu berdasarkan penggunaan sistem pembelajaran mesin berdasarkan rangkaian saraf berulang LSTM, dioptimumkan untuk mengenali keseluruhan rentetan dan membolehkan peningkatan ketara dalam ketepatan. Model terlatih sedia telah diterbitkan untuk 123 bahasa. Untuk mengoptimumkan prestasi, modul menggunakan OpenMP dan arahan SIMD AVX2, AVX, NEON atau SSE4.1 ditawarkan.

Penambahbaikan utama dalam Tesseract 5.0:

  • Perubahan ketara dalam nombor versi adalah disebabkan oleh perubahan yang dibuat pada API yang memecahkan keserasian. Khususnya, API libtesseract awam tidak lagi terikat dengan jenis data GenericVector dan STRING proprietari, memihak kepada std::string dan std::vector.
  • Pokok teks sumber telah disusun semula. Fail pengepala awam telah dialihkan ke direktori include/tesseract.
  • Pengurusan memori telah direka bentuk semula, semua malloc dan panggilan percuma telah digantikan dengan kod C++. Pemodenan umum kod telah dijalankan.
  • Menambahkan pengoptimuman untuk seni bina ARM dan ARM64; Arahan NEON ARM digunakan untuk mempercepatkan pengiraan. Pengoptimuman prestasi biasa untuk semua seni bina telah dijalankan.
  • Mod baharu untuk model latihan dan pengecaman teks berdasarkan penggunaan pengiraan titik terapung telah dilaksanakan. Mod baharu menawarkan prestasi yang lebih tinggi dan penggunaan memori yang lebih rendah. Dalam enjin LSTM, mod pantas float32 didayakan secara lalai.
  • Peralihan telah dibuat untuk menggunakan normalisasi Unicode menggunakan borang NFC (Normalization Form Canonical).
  • Menambah pilihan untuk mengkonfigurasi perincian log (--loglevel).
  • Sistem binaan berdasarkan Autotools telah direka bentuk semula dan ditukar kepada binaan dalam mod bukan rekursif.
  • Cawangan "master" dalam Git telah dinamakan semula kepada "utama".
  • Menambah sokongan untuk keluaran baharu sistem macOS dan Apple berdasarkan cip M1.

    Sumber: opennet.ru

Tambah komen