Tesseract mətn tanıma sisteminin buraxılışı 5.3.4

Rus, Qazax, Belarus və Ukrayna da daxil olmaqla 5.3.4-dən çox dildə UTF-8 simvollarının və mətnlərinin tanınmasını dəstəkləyən Tesseract 100 optik mətn tanınma sisteminin buraxılışı nəşr olundu. Nəticə düz mətndə və ya HTML (hOCR), ALTO (XML), PDF və TSV formatlarında saxlanıla bilər. Sistem ilk olaraq 1985-1995-ci illərdə Hewlett Packard laboratoriyasında yaradılmış, 2005-ci ildə kod Apache lisenziyası ilə açılmış və Google əməkdaşlarının iştirakı ilə daha da inkişaf etdirilmişdir. Layihənin mənbə kodu Apache 2.0 lisenziyası altında paylanır.

Tesseract digər proqramlara OCR funksionallığını daxil etmək üçün konsol yardım proqramı və libtesseract kitabxanasını ehtiva edir. Tesseract-ı dəstəkləyən üçüncü tərəf GUI interfeyslərinə gImageReader, VietOCR və YAGF daxildir. İki tanınma mühərriki təklif olunur: fərdi xarakter nümunələri səviyyəsində mətni tanıyan klassik və LSTM təkrarlanan neyron şəbəkəsinə əsaslanan maşın öyrənmə sisteminin istifadəsinə əsaslanan, bütün sətirlərin tanınması üçün optimallaşdırılmış və yeni dəqiqliyin əhəmiyyətli dərəcədə artması. Hazır hazırlanmış modellər 123 dildə nəşr edilmişdir. Performansı optimallaşdırmaq üçün OpenMP və SIMD təlimatlarından AVX2, AVX, AVX512F, NEON və ya SSE4.1 istifadə edən modullar təklif olunur.

Əsas təkmilləşdirmələr:

  • Libcurl kitabxanasından istifadə edərək fayl endirilməsi ilə URL ilə təkmilləşdirilmiş təsvirin tanınması. Yükləyərkən İstifadəçi-Agent başlığı təyin edilir. Kuki faylından istifadə üçün curl_cookiefile yeni parametr əlavə edildi.
  • ScrollView serveri üstünlük verilən protokol kimi TCP-dən istifadə edir.
  • "combine_tessdata -d" əmrindən istifadə edərkən çıxış stderr əvəzinə stdout-a verilir.
  • Autoconf və cingilti istifadə edərkən quraşdırma problemləri düzəldildi.

Mənbə: opennet.ru

Добавить комментарий