Rilis sistem pengenalan teks Tesseract 4.1

Siap rilis sistem pengenalan teks optik Tesseract 4.1, mendukung pengenalan karakter dan teks UTF-8 dalam lebih dari 100 bahasa, termasuk Rusia, Kazakh, Belarusia, dan Ukraina. Hasilnya dapat disimpan dalam format teks biasa atau dalam format HTML (hOCR), ALTO (XML), PDF dan TSV. Sistem ini awalnya dibuat pada tahun 1985-1995 di laboratorium Hewlett Packard, pada tahun 2005 kode dibuka di bawah lisensi Apache dan dikembangkan lebih lanjut dengan partisipasi karyawan Google. Sumber proyek sebaran berlisensi di bawah Apache 2.0.

Tesseract menyertakan utilitas konsol dan perpustakaan libtesseract untuk menyematkan fungsionalitas OCR ke aplikasi lain. Dari pihak ketiga yang mendukung Tesseract antarmuka GUI Anda dapat mencatat gImageReader, VietnamOCR ΠΈ YAGF. Dua mesin pengenalan ditawarkan: mesin klasik yang mengenali teks pada tingkat pola karakter individual, dan mesin baru berdasarkan penggunaan sistem pembelajaran mesin berdasarkan jaringan saraf berulang LSTM, dioptimalkan untuk mengenali seluruh string dan memungkinkan a peningkatan akurasi yang signifikan. Model terlatih yang sudah jadi diterbitkan untuk 123 bahasa. Untuk mengoptimalkan kinerja, modul yang menggunakan instruksi SIMD OpenMP dan AVX2, AVX atau SSE4.1 ditawarkan.

Utama perbaikan di Tesseract 4.1:

  • Menambahkan kemampuan untuk menghasilkan output dalam format XML TINGGI (Tata Letak dan Objek Teks yang Dianalisis). Untuk menggunakan format ini, Anda harus menjalankan aplikasi sebagai β€œtessaract image_name alto output_dir”;
  • Menambahkan modul rendering baru LSTMBox dan WordStrBox, menyederhanakan pelatihan mesin;
  • Menambahkan dukungan untuk pseudografik dalam keluaran hOCR (HTML);
  • Menambahkan skrip alternatif yang ditulis dengan Python untuk melatih mesin berdasarkan pembelajaran mesin;
  • Optimalisasi yang diperluas menggunakan instruksi AVX, AVX2 dan SSE;
  • Dukungan OpenMP dinonaktifkan secara default karena masalah dengan produktivitas;
  • Menambahkan dukungan untuk daftar putih dan hitam di mesin LSTM;
  • Peningkatan skrip build berdasarkan Cmake.

Sumber: opennet.ru

Tambah komentar