Tesseract mətn tanıma sisteminin buraxılışı 5.1

Rus, Qazax, Belarus və Ukrayna da daxil olmaqla 5.1-dən çox dildə UTF-8 simvollarının və mətnlərinin tanınmasını dəstəkləyən Tesseract 100 optik mətn tanınma sisteminin buraxılışı nəşr olundu. Nəticə düz mətndə və ya HTML (hOCR), ALTO (XML), PDF və TSV formatlarında saxlanıla bilər. Sistem ilk olaraq 1985-1995-ci illərdə Hewlett Packard laboratoriyasında yaradılmış, 2005-ci ildə kod Apache lisenziyası ilə açılmış və Google əməkdaşlarının iştirakı ilə daha da inkişaf etdirilmişdir. Layihənin mənbə kodu Apache 2.0 lisenziyası altında paylanır.

Tesseract digər proqramlara OCR funksionallığını daxil etmək üçün konsol yardım proqramı və libtesseract kitabxanasını ehtiva edir. Tesseract-ı dəstəkləyən üçüncü tərəf GUI interfeyslərinə gImageReader, VietOCR və YAGF daxildir. İki tanınma mühərriki təklif olunur: fərdi xarakter nümunələri səviyyəsində mətni tanıyan klassik və LSTM təkrarlanan neyron şəbəkəsinə əsaslanan maşın öyrənmə sisteminin istifadəsinə əsaslanan yeni, bütün sətirləri tanımaq üçün optimallaşdırılmış və dəqiqliyin əhəmiyyətli dərəcədə artması. Hazır öyrədilmiş modellər 123 dildə nəşr edilmişdir. Performansı optimallaşdırmaq üçün OpenMP və SIMD təlimatlarından istifadə edən modullar AVX2, AVX, NEON və ya SSE4.1 təklif olunur.

Tesseract 5.1-də əsas təkmilləşdirmələr:

  • ALTO, hOCR və mətn formatlarında çıxış edərkən şəkillər və xətlər olan sahələri emal etmək imkanı tətbiq edilmişdir.
  • Yeni curl_timeout lkz curl_easy_setop parametri əlavə edildi.
  • Təkmilləşdirilmiş tikinti sistemi.
  • İstifadə edilməmiş kodun silinməsi üçün işlər görülüb
  • PageIterator::Orientation sinifində null göstəricilərin düzgün işləməməsi nəticəsində yaranan qəzalar düzəldildi.

Mənbə: opennet.ru

Добавить комментарий