Teksto atpažinimo sistemos Tesseract 4.1 išleidimas

Parengta optinio teksto atpažinimo sistemos išleidimas Tesseact 4.1, palaikantis UTF-8 simbolių ir tekstų atpažinimą daugiau nei 100 kalbų, įskaitant rusų, kazachų, baltarusių ir ukrainiečių. Rezultatas gali būti išsaugotas paprastu tekstu arba HTML (hOCR), ALTO (XML), PDF ir TSV formatais. Sistema iš pradžių buvo sukurta 1985–1995 metais Hewlett Packard laboratorijoje 2005 m., kodas buvo atidarytas pagal Apache licenciją ir buvo toliau tobulinamas dalyvaujant Google darbuotojams. Projekto šaltiniai skleisti licencijuota pagal Apache 2.0.

„Tesseract“ apima konsolės programą ir „libtesseract“ biblioteką, skirtą OCR funkcijoms įterpti į kitas programas. Iš trečiųjų šalių, palaikančių Tesseact GUI sąsajos galite pastebėti „gImageReader“, VietOCR и YAGF. Siūlomi du atpažinimo varikliai: klasikinis, atpažįstantis tekstą atskirų simbolių modelių lygiu, ir naujas, pagrįstas mašininio mokymosi sistema, pagrįsta LSTM pasikartojančiu neuroniniu tinklu, optimizuota atpažinti visas eilutes ir leidžianti reikšmingas tikslumo padidėjimas. Skelbiami paruošti apmokyti modeliai 123 kalbos. Siekiant optimizuoti našumą, siūlomi moduliai naudojant OpenMP ir AVX2, AVX arba SSE4.1 SIMD instrukcijas.

pagrindinis patobulinimai Tesseract 4.1:

  • Pridėta galimybė išvesti XML formatu AUKŠTOS (Analizuotas maketas ir teksto objektas). Norėdami naudoti šį formatą, turėtumėte paleisti programą kaip „tessaract image_name alto output_dir“;
  • Pridėta naujų atvaizdavimo modulių LSTMBox ir WordStrBox, supaprastinant variklio mokymą;
  • Pridėtas pseudografijos palaikymas hOCR (HTML) išvestyje;
  • Pridėta alternatyvių scenarijų, parašytų Python, kad būtų galima išmokyti variklį, pagrįstą mašininiu mokymusi;
  • Išplėstas optimizavimas naudojant AVX, AVX2 ir SSE instrukcijas;
  • OpenMP palaikymas pagal numatytuosius nustatymus yra išjungtas dėl problemų su produktyvumu;
  • Pridėtas baltųjų ir juodųjų sąrašų palaikymas LSTM variklyje;
  • Patobulinti kūrimo scenarijai, pagrįsti Cmake.

Šaltinis: opennet.ru

Добавить комментарий