Објавување на системот за препознавање текст Tesseract 4.1

Подготвени ослободување на оптички систем за препознавање текст Тесеракт 4.1, поддржувајќи препознавање на UTF-8 знаци и текстови на повеќе од 100 јазици, вклучувајќи руски, казахстански, белоруски и украински. Резултатот може да се зачува во обичен текст или во формати HTML (hOCR), ALTO (XML), PDF и TSV. Системот првично беше создаден во 1985-1995 година во лабораторијата Хјулит Пакард; во 2005 година, кодот беше отворен под лиценцата Apache и беше дополнително развиен со учество на вработените на Google. Извори на проектот ширење лиценциран под Apache 2.0.

Tesseract вклучува алатка за конзола и библиотека libtesseract за вградување на функционалноста на OCR во други апликации. Од трети страни кои го поддржуваат Tesseract GUI интерфејси можете да забележите gImageReader, VietOCR и YAGF. Понудени се два мотори за препознавање: класичен кој препознава текст на ниво на индивидуални шаблони на знаци и нов базиран на употреба на систем за машинско учење базиран на рекурентна невронска мрежа LSTM, оптимизиран за препознавање цели низи и овозможува значително зголемување на точноста. Се објавуваат готови обучени модели за 123 јазици. За да се оптимизираат перформансите, се нудат модули кои користат OpenMP и AVX2, AVX или SSE4.1 SIMD инструкции.

Главните подобрувања во Tesseract 4.1:

  • Додадена е можност за излез во XML формат HIGH (Анализиран распоред и текстуален објект). За да го користите овој формат, треба да ја извршите апликацијата како „tessaract image_name alto output_dir“;
  • Додадени се нови модули за рендерирање LSTMBox и WordStrBox, поедноставувајќи го тренингот на моторот;
  • Додадена е поддршка за псевдографски слики во излезот hOCR (HTML);
  • Додадени алтернативни скрипти напишани во Python за обука на моторот врз основа на машинско учење;
  • Проширени оптимизации користејќи инструкции AVX, AVX2 и SSE;
  • Поддршката за OpenMP е стандардно оневозможена поради проблеми со продуктивност;
  • Додадена е поддршка за бели и црни списоци во LSTM моторот;
  • Подобрени скрипти за градење базирани на Cmake.

Извор: opennet.ru

Додадете коментар