Metin tanıma sistemi Tesseract 4.1'in piyasaya sürülmesi

Tedarikli optik metin tanıma sisteminin piyasaya sürülmesi Tesseract 4.1Rusça, Kazakça, Belarusça ve Ukraynaca dahil 8'den fazla dilde UTF-100 karakterlerinin ve metinlerinin tanınmasını destekler. Sonuç düz metin olarak veya HTML (hOCR), ALTO (XML), PDF ve TSV formatlarında kaydedilebilir. Sistem ilk olarak 1985-1995 yıllarında Hewlett Packard laboratuvarında oluşturuldu; 2005 yılında kod Apache lisansı altında açıldı ve Google çalışanlarının katılımıyla daha da geliştirildi. Proje kaynakları yayılmış Apache 2.0 altında lisanslanmıştır.

Tesseract, OCR işlevselliğini diğer uygulamalara yerleştirmek için bir konsol yardımcı programı ve libtesseract kitaplığı içerir. Tesseract'ı destekleyen üçüncü taraflardan GUI arayüzleri not edebilirsin gImageReader, VietnamOCR и YAGF. İki tanıma motoru sunulmaktadır: metni bireysel karakter desenleri düzeyinde tanıyan klasik bir motor ve tüm dizeleri tanımak ve tek bir karakter dizisine izin vermek için optimize edilmiş, LSTM tekrarlayan sinir ağını temel alan bir makine öğrenimi sisteminin kullanımına dayanan yeni bir motor. doğrulukta önemli bir artış. Hazır eğitimli modeller yayınlanıyor 123 dil. Performansı optimize etmek için OpenMP ve AVX2, AVX veya SSE4.1 SIMD talimatlarını kullanan modüller sunulmaktadır.

Ana iyileştirmeler Tesseract 4.1'de:

  • XML formatında çıktı alma özelliği eklendi YÜKSEK (Analiz Edilen Düzen ve Metin Nesnesi). Bu formatı kullanmak için uygulamayı “tessaract image_name alto çıktı_dizini” olarak çalıştırmalısınız;
  • Motor eğitimini basitleştiren yeni işleme modülleri LSTMBox ve WordStrBox eklendi;
  • hOCR (HTML) çıktısına sahte grafikler için destek eklendi;
  • Motorun makine öğrenimine dayalı olarak eğitilmesi için Python'da yazılmış alternatif komut dosyaları eklendi;
  • AVX, AVX2 ve SSE talimatlarını kullanarak genişletilmiş optimizasyonlar;
  • OpenMP desteği varsayılan olarak devre dışıdır. sorunları üretkenlikle;
  • LSTM motoruna beyaz ve kara listeler için destek eklendi;
  • Cmake'e dayalı geliştirilmiş derleme komut dosyaları.

Kaynak: opennet.ru

Yorum ekle