Tesseract мәтінді тану жүйесінің шығарылымы 5.3.4

UTF-5.3.4 таңбалары мен мәтіндерді 8-ден астам тілде, соның ішінде орыс, қазақ, белорус және украин тілдерінде тануды қолдайтын Tesseract 100 оптикалық мәтінді тану жүйесінің шығарылымы жарияланды. Нәтижені кәдімгі мәтін түрінде немесе HTML (hOCR), ALTO (XML), PDF және TSV пішімінде сақтауға болады. Жүйе бастапқыда 1985-1995 жылдары Hewlett Packard зертханасында жасалды, 2005 жылы код Apache лицензиясы бойынша ашылды және одан әрі Google қызметкерлерінің қатысуымен әзірленді. Жобаның бастапқы коды Apache 2.0 лицензиясы бойынша таратылады.

Tesseract консольдық қызметтік бағдарламасын және OCR функционалдығын басқа қолданбаларға ендіруге арналған libtesseract кітапханасын қамтиды. Tesseract қолданбасын қолдайтын үшінші тарап GUI интерфейстеріне gImageReader, VietOCR және YAGF кіреді. Екі тану қозғалтқышы ұсынылады: мәтінді жеке таңба үлгілері деңгейінде танитын классикалық және бүкіл жолдарды тану үшін оңтайландырылған және LSTM қайталанатын нейрондық желіге негізделген машиналық оқыту жүйесін пайдалануға негізделген жаңасы. дәлдіктің айтарлықтай артуы. Дайын дайындалған модельдер 123 тілде жарияланды. Өнімділікті оңтайландыру үшін OpenMP және SIMD нұсқауларын қолданатын AVX2, AVX, AVX512F, NEON немесе SSE4.1 модульдері ұсынылады.

Негізгі жақсартулар:

  • libcurl кітапханасы арқылы файлды жүктеп алу арқылы URL мекенжайы бойынша жақсартылған кескінді тану. Жүктеу кезінде User-Agent тақырыбы орнатылады. Cookie файлын пайдалану үшін жаңа curl_cookiefile параметрі қосылды.
  • ScrollView сервері TCP протоколын таңдаулы протокол ретінде пайдаланады.
  • "combine_tessdata -d" пәрменін пайдаланған кезде шығыс stderr орнына stdout үшін беріледі.
  • Autoconf және clang пайдалану кезінде құрастыру мәселелері түзетілді.

Ақпарат көзі: opennet.ru

пікір қалдыру