Rilis sistem pengenalan teks Tesseract 5.3.4

Rilis sistem pengenalan teks optik Tesseract 5.3.4 telah diterbitkan, mendukung pengenalan karakter dan teks UTF-8 dalam lebih dari 100 bahasa, termasuk Rusia, Kazakh, Belarusia, dan Ukraina. Hasilnya dapat disimpan dalam format teks biasa atau dalam format HTML (hOCR), ALTO (XML), PDF dan TSV. Sistem ini awalnya dibuat pada tahun 1985-1995 di laboratorium Hewlett Packard, pada tahun 2005 kode dibuka di bawah lisensi Apache dan dikembangkan lebih lanjut dengan partisipasi karyawan Google. Kode sumber proyek ini didistribusikan di bawah lisensi Apache 2.0.

Tesseract menyertakan utilitas konsol dan perpustakaan libtesseract untuk menyematkan fungsionalitas OCR ke aplikasi lain. Antarmuka GUI pihak ketiga yang mendukung Tesseract termasuk gImageReader, VietOCR, dan YAGF. Dua mesin pengenalan ditawarkan: mesin klasik yang mengenali teks pada tingkat pola karakter individual, dan mesin baru berdasarkan penggunaan sistem pembelajaran mesin berdasarkan jaringan saraf berulang LSTM, dioptimalkan untuk mengenali seluruh string dan memungkinkan a peningkatan akurasi yang signifikan. Model terlatih yang sudah jadi telah diterbitkan dalam 123 bahasa. Untuk mengoptimalkan kinerja, ditawarkan modul yang menggunakan instruksi OpenMP dan SIMD AVX2, AVX, AVX512F, NEON atau SSE4.1.

Perbaikan utama:

  • Peningkatan pengenalan gambar berdasarkan URL dengan pengunduhan file menggunakan perpustakaan libcurl. Saat memuat, header Agen-Pengguna disetel. Menambahkan parameter baru curl_cookiefile untuk menggunakan file cookie.
  • Server ScrollView menggunakan TCP sebagai protokol pilihannya.
  • Saat menggunakan perintah "combine_tessdata -d", output diberikan ke stdout, bukan stderr.
  • Memperbaiki masalah build saat menggunakan autoconf dan clang.

Sumber: opennet.ru

Tambah komentar