Tesseract мәтінді тану жүйесінің шығарылымы 5.0

UTF-4.1 таңбалары мен мәтіндерді 8-ден астам тілде, соның ішінде орыс, қазақ, белорус және украин тілдерінде тануды қолдайтын Tesseract 100 оптикалық мәтінді тану жүйесінің шығарылымы жарияланды. Нәтижені кәдімгі мәтін түрінде немесе HTML (hOCR), ALTO (XML), PDF және TSV пішімінде сақтауға болады. Жүйе бастапқыда 1985-1995 жылдары Hewlett Packard зертханасында жасалды, 2005 жылы код Apache лицензиясы бойынша ашылды және одан әрі Google қызметкерлерінің қатысуымен әзірленді. Жобаның бастапқы коды Apache 2.0 лицензиясы бойынша таратылады.

Tesseract консольдық қызметтік бағдарламасын және OCR функциясын басқа қолданбаларға ендіруге арналған libtesseract кітапханасын қамтиды. Tesseract қолдайтын үшінші тарап GUI интерфейстеріне gImageReader, VietOCR және YAGF кіреді. Екі тану қозғалтқышы ұсынылады: мәтінді жеке таңба үлгілері деңгейінде танитын классикалық және бүкіл жолдарды тану үшін оңтайландырылған және LSTM қайталанатын нейрондық желіге негізделген машиналық оқыту жүйесін пайдалануға негізделген жаңасы. дәлдіктің айтарлықтай артуы. Дайын дайындалған модельдер 123 тілде жарияланды. Өнімділікті оңтайландыру үшін OpenMP және SIMD нұсқауларын қолданатын AVX2, AVX, NEON немесе SSE4.1 модульдері ұсынылады.

Tesseract 5.0-дегі негізгі жақсартулар:

  • Нұсқа нөмірін өзгерту үйлесімділікті бұзатын API-ге енгізілген өзгерістерге байланысты. Атап айтқанда, жалпыға қолжетімді libtesseract API енді std::string және std::vektor пайдасына меншікті GenericVector және STRING деректер түрлеріне байланысты емес.
  • Бастапқы мәтін ағашы қайта ұйымдастырылды. Жалпы тақырып файлдары include/tesseract каталогына жылжытылды.
  • Жадты басқару қайта жасақталды, барлық malloc және тегін қоңыраулар C++ кодымен ауыстырылды. Кодексті жалпы жаңғырту жүргізілді.
  • ARM және ARM64 архитектуралары үшін оңтайландырулар қосылды; ARM NEON нұсқаулары есептеулерді жылдамдату үшін пайдаланылады. Барлық архитектураға ортақ өнімділікті оңтайландыру жүргізілді.
  • Модельдерді оқытудың жаңа режимдері және өзгермелі нүктелік есептеулерді пайдалану негізінде мәтінді танудың жаңа режимдері енгізілді. Жаңа режимдер жоғары өнімділік пен жадты аз тұтынуды ұсынады. LSTM қозғалтқышында әдепкі бойынша float32 жылдам режимі қосылады.
  • NFC (Normalization Form Canonical) пішімі арқылы Юникодты қалыпқа келтіруді пайдалануға көшу жасалды.
  • Журнал мәліметтерін конфигурациялау опциясы қосылды (--loglevel).
  • Autotools негізіндегі құрастыру жүйесі қайта жасақталды және рекурсивті емес режимде құрастыруға ауыстырылды.
  • Гиттегі «шебер» филиалы «негізгі» болып өзгертілді.
  • M1 чипіне негізделген macOS және Apple жүйелерінің жаңа шығарылымдарына қолдау қосылды.

    Ақпарат көзі: opennet.ru

пікір қалдыру