Tesseract mətn tanıma sisteminin buraxılışı 5.0

Rus, Qazax, Belarus və Ukrayna da daxil olmaqla 4.1-dən çox dildə UTF-8 simvollarının və mətnlərinin tanınmasını dəstəkləyən Tesseract 100 optik mətn tanınma sisteminin buraxılışı nəşr olundu. Nəticə düz mətndə və ya HTML (hOCR), ALTO (XML), PDF və TSV formatlarında saxlanıla bilər. Sistem ilk olaraq 1985-1995-ci illərdə Hewlett Packard laboratoriyasında yaradılmış, 2005-ci ildə kod Apache lisenziyası ilə açılmış və Google əməkdaşlarının iştirakı ilə daha da inkişaf etdirilmişdir. Layihənin mənbə kodu Apache 2.0 lisenziyası altında paylanır.

Tesseract digər proqramlara OCR funksionallığını daxil etmək üçün konsol yardım proqramı və libtesseract kitabxanasını ehtiva edir. Tesseract-ı dəstəkləyən üçüncü tərəf GUI interfeyslərinə gImageReader, VietOCR və YAGF daxildir. İki tanınma mühərriki təklif olunur: fərdi xarakter nümunələri səviyyəsində mətni tanıyan klassik və LSTM təkrarlanan neyron şəbəkəsinə əsaslanan maşın öyrənmə sisteminin istifadəsinə əsaslanan yeni, bütün sətirləri tanımaq üçün optimallaşdırılmış və dəqiqliyin əhəmiyyətli dərəcədə artması. Hazır öyrədilmiş modellər 123 dildə nəşr edilmişdir. Performansı optimallaşdırmaq üçün OpenMP və SIMD təlimatlarından istifadə edən modullar AVX2, AVX, NEON və ya SSE4.1 təklif olunur.

Tesseract 5.0-də əsas təkmilləşdirmələr:

  • Versiya nömrəsində əhəmiyyətli dəyişiklik uyğunluğu pozan API-də edilən dəyişikliklərlə bağlıdır. Xüsusilə, ictimai libtesseract API artıq std::string və std::vector-un lehinə, xüsusi GenericVector və STRING məlumat növləri ilə əlaqəli deyil.
  • Mənbə mətn ağacı yenidən təşkil edilib. Ümumi başlıq faylları include/tesseract qovluğuna köçürüldü.
  • Yaddaşın idarə edilməsi yenidən işlənib, bütün malloc və pulsuz zənglər C++ kodu ilə əvəz edilib. Məcəllənin ümumi modernləşdirilməsi həyata keçirilib.
  • ARM və ARM64 arxitekturaları üçün optimallaşdırmalar əlavə edildi; ARM NEON təlimatları hesablamaları sürətləndirmək üçün istifadə olunur. Bütün arxitekturalar üçün ümumi olan performans optimallaşdırılması həyata keçirilmişdir.
  • Üzən nöqtə hesablamalarından istifadə əsasında təlim modelləri və mətnin tanınması üçün yeni rejimlər tətbiq edilmişdir. Yeni rejimlər daha yüksək performans və daha az yaddaş istehlakı təklif edir. LSTM mühərrikində float32 sürətli rejimi standart olaraq aktivdir.
  • NFC (Normallaşdırma Forması Canonical) formasından istifadə edərək Unicode normallaşdırmasından istifadəyə keçid edilib.
  • Günlük təfərrüatlarını konfiqurasiya etmək üçün seçim əlavə edildi (--loglevel).
  • Autotools-a əsaslanan qurma sistemi yenidən işlənib və rekursiv olmayan rejimdə qurulmağa keçirilib.
  • Gitdəki "master" filialı "əsas" olaraq dəyişdirildi.
  • M1 çipinə əsaslanan macOS və Apple sistemlərinin yeni buraxılışları üçün əlavə dəstək.

    Mənbə: opennet.ru

Добавить комментарий