Tesseract mətn tanıma sisteminin buraxılışı 4.1

Hazırlandı optik mətn tanıma sisteminin buraxılışı Tesseract 4.1, rus, qazax, belarus və ukrayna da daxil olmaqla 8-dən çox dildə UTF-100 simvollarının və mətnlərinin tanınmasını dəstəkləyir. Nəticə düz mətndə və ya HTML (hOCR), ALTO (XML), PDF və TSV formatlarında saxlanıla bilər. Sistem ilk olaraq 1985-1995-ci illərdə Hewlett Packard laboratoriyasında yaradılmış, 2005-ci ildə kod Apache lisenziyası ilə açılmış və Google əməkdaşlarının iştirakı ilə daha da inkişaf etdirilmişdir. Layihə mənbələri yayılma Apache 2.0 altında lisenziyalıdır.

Tesseract digər proqramlara OCR funksionallığını daxil etmək üçün konsol yardım proqramı və libtesseract kitabxanasını ehtiva edir. Tesseract-ı dəstəkləyən üçüncü tərəflərdən GUI interfeysləri qeyd edə bilərsiniz gImageReader, VietOCR и YAGF. İki tanınma mühərriki təklif olunur: fərdi xarakter nümunələri səviyyəsində mətni tanıyan klassik və LSTM təkrarlanan neyron şəbəkəsinə əsaslanan maşın öyrənmə sisteminin istifadəsinə əsaslanan yeni, bütün sətirləri tanımaq üçün optimallaşdırılmış və dəqiqliyin əhəmiyyətli dərəcədə artması. Hazır öyrədilmiş modellər üçün nəşr olunur 123 dil. Performansı optimallaşdırmaq üçün OpenMP və AVX2, AVX və ya SSE4.1 SIMD təlimatlarından istifadə edən modullar təklif olunur.

Əsas irəliləyişlər Tesseract 4.1-də:

  • XML formatında çıxış imkanı əlavə edildi HIGH (Təhlil edilən Layout və Mətn Obyekti). Bu formatdan istifadə etmək üçün proqramı “tessaract image_name alto output_dir” kimi işlətməlisiniz;
  • Mühərrik təlimini asanlaşdıran yeni LSMBox və WordStrBox render modulları əlavə edildi;
  • hOCR (HTML) çıxışında psevdoqrafiya üçün əlavə dəstək;
  • Maşın öyrənməsi əsasında mühərriki öyrətmək üçün Python-da yazılmış alternativ skriptlər əlavə edildi;
  • AVX, AVX2 və SSE təlimatlarından istifadə edərək genişləndirilmiş optimallaşdırmalar;
  • OpenMP dəstəyi səbəbiylə defolt olaraq söndürülür problemlər məhsuldarlıqla;
  • LSTM mühərrikində ağ və qara siyahılar üçün əlavə dəstək;
  • Cmake əsasında təkmilləşdirilmiş qurma skriptləri.

Mənbə: opennet.ru

Добавить комментарий