Rilis sistem pengenalan teks Tesseract 5.0

Rilis sistem pengenalan teks optik Tesseract 4.1 telah diterbitkan, mendukung pengenalan karakter dan teks UTF-8 dalam lebih dari 100 bahasa, termasuk Rusia, Kazakh, Belarusia, dan Ukraina. Hasilnya dapat disimpan dalam format teks biasa atau dalam format HTML (hOCR), ALTO (XML), PDF dan TSV. Sistem ini awalnya dibuat pada tahun 1985-1995 di laboratorium Hewlett Packard, pada tahun 2005 kode dibuka di bawah lisensi Apache dan dikembangkan lebih lanjut dengan partisipasi karyawan Google. Kode sumber proyek ini didistribusikan di bawah lisensi Apache 2.0.

Tesseract menyertakan utilitas konsol dan perpustakaan libtesseract untuk menyematkan fungsionalitas OCR ke aplikasi lain. Antarmuka GUI pihak ketiga yang mendukung Tesseract termasuk gImageReader, VietOCR, dan YAGF. Dua mesin pengenalan ditawarkan: mesin klasik yang mengenali teks pada tingkat pola karakter individual, dan mesin baru berdasarkan penggunaan sistem pembelajaran mesin berdasarkan jaringan saraf berulang LSTM, dioptimalkan untuk mengenali seluruh string dan memungkinkan a peningkatan akurasi yang signifikan. Model terlatih yang sudah jadi telah diterbitkan dalam 123 bahasa. Untuk mengoptimalkan kinerja, ditawarkan modul yang menggunakan instruksi OpenMP dan SIMD AVX2, AVX, NEON atau SSE4.1.

Peningkatan besar pada Tesseract 5.0:

  • Perubahan signifikan pada nomor versi disebabkan oleh perubahan yang dilakukan pada API yang merusak kompatibilitas. Secara khusus, API libtesseract publik tidak lagi terikat pada tipe data GenericVector dan STRING, melainkan std::string dan std::vector.
  • Pohon teks sumber telah ditata ulang. File header publik telah dipindahkan ke direktori include/tesseract.
  • Manajemen memori telah didesain ulang, semua malloc dan panggilan gratis telah diganti dengan kode C++. Modernisasi umum kode telah dilakukan.
  • Menambahkan optimalisasi untuk arsitektur ARM dan ARM64; instruksi ARM NEON digunakan untuk mempercepat perhitungan. Optimalisasi kinerja yang umum untuk semua arsitektur telah dilakukan.
  • Mode baru untuk model pelatihan dan pengenalan teks berdasarkan penggunaan perhitungan floating point telah diterapkan. Mode baru ini menawarkan kinerja lebih tinggi dan konsumsi memori lebih rendah. Di mesin LSTM, mode cepat float32 diaktifkan secara default.
  • Transisi telah dilakukan untuk menggunakan normalisasi Unicode menggunakan formulir NFC (Normalization Form Canonical).
  • Menambahkan opsi untuk mengonfigurasi perincian log (--loglevel).
  • Sistem pembangunan berdasarkan Autotools telah didesain ulang dan dialihkan untuk membangun dalam mode non-rekursif.
  • Cabang "master" di Git telah diubah namanya menjadi "utama".
  • Menambahkan dukungan untuk rilis baru macOS dan sistem Apple berdasarkan chip M1.

    Sumber: opennet.ru

Tambah komentar