Tesseract мәтінді тану жүйесінің шығарылымы 5.1

UTF-5.1 таңбалары мен мәтіндерді 8-ден астам тілде, соның ішінде орыс, қазақ, белорус және украин тілдерінде тануды қолдайтын Tesseract 100 оптикалық мәтінді тану жүйесінің шығарылымы жарияланды. Нәтижені кәдімгі мәтін түрінде немесе HTML (hOCR), ALTO (XML), PDF және TSV пішімінде сақтауға болады. Жүйе бастапқыда 1985-1995 жылдары Hewlett Packard зертханасында жасалды, 2005 жылы код Apache лицензиясы бойынша ашылды және одан әрі Google қызметкерлерінің қатысуымен әзірленді. Жобаның бастапқы коды Apache 2.0 лицензиясы бойынша таратылады.

Tesseract консольдық қызметтік бағдарламасын және OCR функциясын басқа қолданбаларға ендіруге арналған libtesseract кітапханасын қамтиды. Tesseract қолдайтын үшінші тарап GUI интерфейстеріне gImageReader, VietOCR және YAGF кіреді. Екі тану қозғалтқышы ұсынылады: мәтінді жеке таңба үлгілері деңгейінде танитын классикалық және бүкіл жолдарды тану үшін оңтайландырылған және LSTM қайталанатын нейрондық желіге негізделген машиналық оқыту жүйесін пайдалануға негізделген жаңасы. дәлдіктің айтарлықтай артуы. Дайын дайындалған модельдер 123 тілде жарияланды. Өнімділікті оңтайландыру үшін OpenMP және SIMD нұсқауларын қолданатын AVX2, AVX, NEON немесе SSE4.1 модульдері ұсынылады.

Tesseract 5.1-дегі негізгі жақсартулар:

  • ALTO, hOCR және мәтін пішімдерінде шығару кезінде кескіндер мен сызықтары бар аймақтарды өңдеу мүмкіндігі енгізілді.
  • curl_timeout lkz curl_easy_setop жаңа параметрі қосылды.
  • Жақсартылған құрылыс жүйесі.
  • Пайдаланылмаған кодты жою бойынша жұмыс жүргізілді
  • PageIterator::Orientation сыныбында нөлдік көрсеткіштерді дұрыс өңдеуден туындаған түзетілген бұзылулар.

Ақпарат көзі: opennet.ru

пікір қалдыру