Tesseract mətn tanıma sisteminin buraxılışı 5.2

Rus, Qazax, Belarus və Ukrayna da daxil olmaqla 5.2-dən çox dildə UTF-8 simvollarının və mətnlərinin tanınmasını dəstəkləyən Tesseract 100 optik mətn tanınma sisteminin buraxılışı nəşr olundu. Nəticə düz mətndə və ya HTML (hOCR), ALTO (XML), PDF və TSV formatlarında saxlanıla bilər. Sistem ilk olaraq 1985-1995-ci illərdə Hewlett Packard laboratoriyasında yaradılmış, 2005-ci ildə kod Apache lisenziyası ilə açılmış və Google əməkdaşlarının iştirakı ilə daha da inkişaf etdirilmişdir. Layihənin mənbə kodu Apache 2.0 lisenziyası altında paylanır.

Tesseract digər proqramlara OCR funksionallığını daxil etmək üçün konsol yardım proqramı və libtesseract kitabxanasını ehtiva edir. Tesseract-ı dəstəkləyən üçüncü tərəf GUI interfeyslərinə gImageReader, VietOCR və YAGF daxildir. İki tanınma mühərriki təklif olunur: fərdi xarakter nümunələri səviyyəsində mətni tanıyan klassik və LSTM təkrarlanan neyron şəbəkəsinə əsaslanan maşın öyrənmə sisteminin istifadəsinə əsaslanan, bütün sətirlərin tanınması üçün optimallaşdırılmış və yeni dəqiqliyin əhəmiyyətli dərəcədə artması. Hazır hazırlanmış modellər 123 dildə nəşr edilmişdir. Performansı optimallaşdırmaq üçün OpenMP və SIMD təlimatlarından AVX2, AVX, AVX512F, NEON və ya SSE4.1 istifadə edən modullar təklif olunur.

Tesseract 5.2-də əsas təkmilləşdirmələr:

  • Intel AVX512F təlimatlarından istifadə edərək həyata keçirilən əlavə optimallaşdırmalar.
  • C API yaddaşdan maşın öyrənmə modelini yükləyərək tesseractı işə salmaq funksiyasını həyata keçirir.
  • Mətn sətirlərinin inversiya səviyyəsini təyin edən invert_threshold parametri əlavə edildi. Varsayılan dəyər 0.7-dir. İnversiyanı söndürmək üçün dəyəri 0-a təyin edin.
  • 32 bitlik hostlarda çox böyük sənədlərin işlənməsi təkmilləşdirilmişdir.
  • std::regex funksiyalarından std::string-ə keçid edildi.
  • Autotools, CMake və davamlı inteqrasiya sistemləri üçün təkmilləşdirilmiş qurma skriptləri.

    Mənbə: opennet.ru

Добавить комментарий