Tesseract мәтінді тану жүйесінің шығарылымы 5.2

UTF-5.2 таңбалары мен мәтіндерді 8-ден астам тілде, соның ішінде орыс, қазақ, белорус және украин тілдерінде тануды қолдайтын Tesseract 100 оптикалық мәтінді тану жүйесінің шығарылымы жарияланды. Нәтижені кәдімгі мәтін түрінде немесе HTML (hOCR), ALTO (XML), PDF және TSV пішімінде сақтауға болады. Жүйе бастапқыда 1985-1995 жылдары Hewlett Packard зертханасында жасалды, 2005 жылы код Apache лицензиясы бойынша ашылды және одан әрі Google қызметкерлерінің қатысуымен әзірленді. Жобаның бастапқы коды Apache 2.0 лицензиясы бойынша таратылады.

Tesseract консольдық қызметтік бағдарламасын және OCR функционалдығын басқа қолданбаларға ендіруге арналған libtesseract кітапханасын қамтиды. Tesseract қолданбасын қолдайтын үшінші тарап GUI интерфейстеріне gImageReader, VietOCR және YAGF кіреді. Екі тану қозғалтқышы ұсынылады: мәтінді жеке таңба үлгілері деңгейінде танитын классикалық және бүкіл жолдарды тану үшін оңтайландырылған және LSTM қайталанатын нейрондық желіге негізделген машиналық оқыту жүйесін пайдалануға негізделген жаңасы. дәлдіктің айтарлықтай артуы. Дайын дайындалған модельдер 123 тілде жарияланды. Өнімділікті оңтайландыру үшін OpenMP және SIMD нұсқауларын қолданатын AVX2, AVX, AVX512F, NEON немесе SSE4.1 модульдері ұсынылады.

Tesseract 5.2-дегі негізгі жақсартулар:

  • Intel AVX512F нұсқаулары арқылы енгізілген оңтайландырулар қосылды.
  • C API жадтан машиналық оқыту үлгісін жүктей отырып, tesseract инициализациялау функциясын жүзеге асырады.
  • Мәтін жолдарының инверсия деңгейін анықтайтын invert_threshold параметрі қосылды. Әдепкі мән - 0.7. Инверсияны өшіру үшін мәнді 0-ге орнатыңыз.
  • 32-биттік хосттарда өте үлкен құжаттарды өңдеу жақсартылған.
  • std::regex функцияларын пайдаланудан std::string түріне көшу жасалды.
  • Autotools, CMake және үздіксіз интеграция жүйелері үшін жақсартылған құрастыру сценарийлері.

    Ақпарат көзі: opennet.ru

пікір қалдыру