🥇Мәтінді тану жүйесінің Tesseract 5.2 шығарылымы

UTF-5.2 таңбалары мен мәтіндерді 8-ден астам тілде, соның ішінде орыс, қазақ, белорус және украин тілдерінде тануды қолдайтын Tesseract 100 оптикалық мәтінді тану жүйесінің шығарылымы жарияланды. Нәтижені кәдімгі мәтін түрінде немесе HTML (hOCR), ALTO (XML), PDF және TSV пішімінде сақтауға болады. Жүйе бастапқыда 1985-1995 жылдары Hewlett Packard зертханасында жасалды, 2005 жылы код Apache лицензиясы бойынша ашылды және одан әрі Google қызметкерлерінің қатысуымен әзірленді. Жобаның бастапқы коды Apache 2.0 лицензиясы бойынша таратылады.

Tesseract консольдық қызметтік бағдарламасын және OCR функционалдығын басқа қолданбаларға ендіруге арналған libtesseract кітапханасын қамтиды. Tesseract қолданбасын қолдайтын үшінші тарап GUI интерфейстеріне gImageReader, VietOCR және YAGF кіреді. Екі тану қозғалтқышы ұсынылады: мәтінді жеке таңба үлгілері деңгейінде танитын классикалық және бүкіл жолдарды тану үшін оңтайландырылған және LSTM қайталанатын нейрондық желіге негізделген машиналық оқыту жүйесін пайдалануға негізделген жаңасы. дәлдіктің айтарлықтай артуы. Дайын дайындалған модельдер 123 тілде жарияланды. Өнімділікті оңтайландыру үшін OpenMP және SIMD нұсқауларын қолданатын AVX2, AVX, AVX512F, NEON немесе SSE4.1 модульдері ұсынылады.

Tesseract 5.2-дегі негізгі жақсартулар:

Intel AVX512F нұсқауларын пайдаланып енгізілген оңтайландырулар қосылды.
C API жадтан машиналық оқыту моделін жүктеу арқылы тессерактты инициализациялау функциясын жүзеге асырады.
Мәтін жолының инверсия деңгейін анықтайтын invert_threshold параметрі қосылды. Әдепкі мән - 0.7. Инверсияны өшіру үшін мәнді 0-ге орнатыңыз.
32 биттік хосттарда өте үлкен құжаттарды өңдеу оңтайландырылды.
std::regex функцияларын пайдаланудан std::string функциясына көшу жүзеге асырылды.
Autotools, CMake және үздіксіз интеграция жүйелеріне арналған жақсартылған құрастыру сценарийлері.
Ақпарат көзі: opennet.ru

Tesseract мәтінді тану жүйесінің шығарылымы 5.2

Юрий Гагарин