Нашри системаи шинохти матн Tesseract 4.1

Тайёр карда шудааст баровардани системаи шинохти матни оптикӣ Tesseract 4.1, эътирофи аломатҳо ва матнҳои UTF-8 бо зиёда аз 100 забон, аз ҷумла русӣ, қазоқӣ, белорусӣ ва украиниро дастгирӣ мекунад. Натиҷаро метавон дар матни оддӣ ё дар форматҳои HTML (hOCR), ALTO (XML), PDF ва TSV захира кард. Система дар ибтидо дар солҳои 1985-1995 дар лабораторияи Hewlett Packard сохта шуда буд, соли 2005 код зери иҷозатномаи Apache кушода шуд ва минбаъд бо иштироки кормандони Google таҳия карда шуд. Сарчашмаҳои лоиҳа паҳн шудан дар зери Apache 2.0 литсензия шудааст.

Tesseract як утилитаи консол ва китобхонаи libtesseract-ро барои ворид кардани функсияҳои OCR ба барномаҳои дигар дар бар мегирад. Аз тарафҳои сеюм, ки Tesseract-ро дастгирӣ мекунанд Интерфейси GUI қайд карда метавонед gImageReader, VietOCR и ЯГФ. Ду муҳаррики шинохт пешниҳод карда мешаванд: муҳаррики классикӣ, ки матнро дар сатҳи намунаҳои аломатҳои инфиродӣ эътироф мекунад ва муҳаррики нав дар асоси истифодаи системаи омӯзиши мошинсозӣ дар асоси шабакаи нейронҳои такрории LSTM, ки барои шинохти тамоми сатрҳо оптимизатсия шудааст ва имкон медиҳад ба таври назаррас афзудани дақиқӣ. Моделҳои тайёр омӯзонида шудаанд, барои нашр 123 забон. Барои беҳсозии кор, модулҳо бо истифода аз OpenMP ва AVX2, AVX ё SSE4.1 SIMD дастурҳо пешниҳод карда мешаванд.

асосӣ беҳбудиҳо дар Tesseract 4.1:

  • Қобилияти баровардан дар формати XML илова карда шуд ALTO (Тарҳбандии таҳлилшуда ва объекти матн). Барои истифодаи ин формат, шумо бояд барномаро ҳамчун "tessaract image_name alto output_dir" иҷро кунед;
  • Модулҳои нави рендеринги LSTMBox ва WordStrBox илова карда шуданд, ки омӯзиши муҳаррикро содда мекунанд;
  • Дастгирии иловашуда барои псевдография дар баромади hOCR (HTML);
  • Скриптҳои алтернативӣ, ки дар Python навишта шудаанд, барои омӯзиши муҳаррик дар асоси омӯзиши мошинсозӣ илова карда шуданд;
  • Оптимизатсияи васеъ бо истифода аз дастурҳои AVX, AVX2 ва SSE;
  • Дастгирии OpenMP бо нобаёнӣ бо сабаби хомӯш карда шудааст мушкилот бо ҳосилнокӣ;
  • Дастгирии иловашуда барои рӯйхатҳои сафед ва сиёҳ дар муҳаррики LSTM;
  • Скриптҳои такмилёфта дар асоси Cmake.

Манбаъ: opennet.ru

Илова Эзоҳ