Рэліз сістэмы распазнання тэксту Tesseract 4.1

Падрыхтаваны рэліз сістэмы аптычнага распазнання тэксту Tesseract 4.1, якая падтрымлівае распазнанне сімвалаў UTF-8 і тэкстаў на больш чым 100 мовах, уключаючы рускую, казахскую, беларускую і ўкраінскую. Вынік можа захоўвацца як адчыненым тэкстам, так і ў фарматах HTML (hOCR), ALTO (XML), PDF і TSV. Першапачаткова сістэма была створана ў 1985-1995 гадах у лабараторыі кампаніі Hewlett Packard, у 2005 годзе код быў адчынены пад ліцэнзіяй Apache і ў далейшым развіваўся пры ўдзеле працаўнікоў кампаніі Google. Зыходныя тэксты праекта распаўсюджваюцца пад ліцэнзіяй Apache 2.0.

Tesseract уключае ў сябе кансольную ўтыліту і бібліятэку libtesseract для ўбудавання функцый распазнання тэксту ў іншыя прыкладанні. З якія падтрымліваюць Tesseract іншых GUI-інтэрфейсаў можна адзначыць gImageReader, VietOCR и YAGF. Прапануецца два рухавічкі распазнання: класічны, які распазнае тэкст на ўзроўні шаблонаў асобных знакаў, і новы, які базуецца на ўжыванні сістэмы машыннага навучання на базе рэкурэнтнай нейронавай сеткі LSTM, аптымізаванай для распазнання цалкам радкоў і якая дазваляе дамагчыся істотнага павелічэння дакладнасці. Гатовыя натрэніраваныя мадэлі апублікаваны для 123 моў. Для аптымізацыі прадукцыйнасці прапануюцца модулі, якія выкарыстоўваюць OpenMP і SIMD-інструкцый AVX2, AVX ці SSE4.1.

Асноўныя паляпшэння у Tesseract 4.1:

  • Дададзена магчымасць вываду ў XML-фармаце Высокай (Analyzed Layout and Text Object). Для выкарыстання дадзенага фармату варта запусціць прыкладанне як "tessaract імя_малюнка каталог_высновы alto";
  • Дададзены новыя модулі рэндэрынгу LSTMBox і WordStrBox, якія спрашчаюць правядзенне навучання рухавічка;
  • Дададзена падтрымка псеўдаграфікі ў выснове hOCR (HTML);
  • Дададзены напісаныя на мове Python альтэрнатыўныя скрыпты для трэніроўкі рухавічка на базе машыннага навучання;
  • Пашыраны аптымізацыі з выкарыстаннем інструкцый AVX, AVX2 і SSE;
  • Па змаўчанні адключаная падтрымка OpenMP з-за праблем з прадукцыйнасцю;
  • У рухавічку LSTM дададзеная падтрымка белых і чорных спісаў;
  • Палепшаны зборачныя сцэнары на базе Cmake.

Крыніца: opennet.ru

Дадаць каментар