Rilis sistem pengenalan teks Tesseract 5.1

Rilis sistem pengenalan teks optik Tesseract 5.1 telah diterbitkan, mendukung pengenalan karakter dan teks UTF-8 dalam lebih dari 100 bahasa, termasuk Rusia, Kazakh, Belarusia, dan Ukraina. Hasilnya dapat disimpan dalam format teks biasa atau dalam format HTML (hOCR), ALTO (XML), PDF dan TSV. Sistem ini awalnya dibuat pada tahun 1985-1995 di laboratorium Hewlett Packard, pada tahun 2005 kode dibuka di bawah lisensi Apache dan dikembangkan lebih lanjut dengan partisipasi karyawan Google. Kode sumber proyek ini didistribusikan di bawah lisensi Apache 2.0.

Tesseract menyertakan utilitas konsol dan perpustakaan libtesseract untuk menyematkan fungsionalitas OCR ke aplikasi lain. Antarmuka GUI pihak ketiga yang mendukung Tesseract termasuk gImageReader, VietOCR, dan YAGF. Dua mesin pengenalan ditawarkan: mesin klasik yang mengenali teks pada tingkat pola karakter individual, dan mesin baru berdasarkan penggunaan sistem pembelajaran mesin berdasarkan jaringan saraf berulang LSTM, dioptimalkan untuk mengenali seluruh string dan memungkinkan a peningkatan akurasi yang signifikan. Model terlatih yang sudah jadi telah diterbitkan dalam 123 bahasa. Untuk mengoptimalkan kinerja, ditawarkan modul yang menggunakan instruksi OpenMP dan SIMD AVX2, AVX, NEON atau SSE4.1.

Peningkatan besar pada Tesseract 5.1:

  • Kemampuan untuk memproses area dengan gambar dan garis saat menghasilkan output dalam format ALTO, hOCR, dan teks telah diterapkan.
  • Menambahkan parameter baru curl_timeout lkz curl_easy_setop.
  • Sistem build yang ditingkatkan.
  • Pekerjaan telah dilakukan untuk menghapus kode yang tidak digunakan
  • Memperbaiki kerusakan yang disebabkan oleh penanganan pointer nol yang salah di kelas PageIterator::Orientation.

Sumber: opennet.ru

Tambah komentar