Нашри системаи шинохти матн Tesseract 5.1

Нашри системаи шинохти матни оптикии Tesseract 5.1 нашр шуд, ки эътирофи аломатҳои UTF-8 ва матнҳоро дар зиёда аз 100 забон, аз ҷумла русӣ, қазоқӣ, белорусӣ ва украинӣ дастгирӣ мекунад. Натиҷаро метавон дар матни оддӣ ё дар форматҳои HTML (hOCR), ALTO (XML), PDF ва TSV захира кард. Система дар ибтидо дар солҳои 1985-1995 дар лабораторияи Hewlett Packard сохта шуда буд, соли 2005 код зери иҷозатномаи Apache кушода шуд ва минбаъд бо иштироки кормандони Google таҳия карда шуд. Рамзи сарчашмаи лоиҳа таҳти иҷозатномаи Apache 2.0 паҳн карда мешавад.

Tesseract як утилитаи консол ва китобхонаи libtesseract-ро барои ворид кардани функсияҳои OCR ба барномаҳои дигар дар бар мегирад. Интерфейсҳои GUI-и тарафи сеюм, ки Tesseract-ро дастгирӣ мекунанд, gImageReader, VietOCR ва YAGF мебошанд. Ду муҳаррики шинохт пешниҳод карда мешаванд: муҳаррики классикӣ, ки матнро дар сатҳи намунаҳои аломатҳои инфиродӣ эътироф мекунад ва муҳаррики нав дар асоси истифодаи системаи омӯзиши мошинсозӣ дар асоси шабакаи нейронҳои такрории LSTM, ки барои шинохти тамоми сатрҳо оптимизатсия шудааст ва имкон медиҳад ба таври назаррас афзудани дақиқӣ. Моделҳои омӯзонидашуда барои 123 забон нашр шудаанд. Барои оптимизатсияи кор, модулҳо бо истифода аз дастурҳои OpenMP ва SIMD AVX2, AVX, NEON ё SSE4.1 пешниҳод карда мешаванд.

Пешрафтҳои асосӣ дар Tesseract 5.1:

  • Имконияти коркарди минтақаҳо бо тасвирҳо ва хатҳо ҳангоми баромад дар форматҳои ALTO, hOCR ва матн амалӣ карда шудааст.
  • Параметри нави curl_timeout lkz curl_easy_setop илова карда шуд.
  • Системаи такмилёфтаи сохтмон.
  • Кор барои бартараф кардани коди истифоданашуда анҷом дода шуд
  • Суқути собит, ки дар натиҷаи коркарди нодурусти нишондиҳандаҳои нул дар синфи PageIterator:: Orientation ба вуҷуд омадааст.

Манбаъ: opennet.ru

Илова Эзоҳ