Eisiúint an chórais aitheantais téacs Tesseract 4.1

ullmhaithe scaoileadh córas optúil aitheantais téacs Teaseract 4.1, ag tacú le haithint carachtar agus téacs UTF-8 i níos mó ná 100 teanga, lena n-áirítear Rúisis, Casaicis, Bealarúisis agus Úcráinis. Is féidir an toradh a shábháil i ngnáth-théacs nó i bhformáidí HTML (HOCR), ALTO (XML), PDF agus TSV. Cruthaíodh an córas ar dtús i 1985-1995 i saotharlann Hewlett Packard; i 2005, osclaíodh an cód faoi cheadúnas Apache agus rinneadh é a fhorbairt tuilleadh le rannpháirtíocht fostaithe Google. Foinsí tionscadail scaipeadh ceadúnaithe faoi Apache 2.0.

Áirítear le Tesseract áirgiúlacht consól agus an leabharlann libtesseract chun feidhmiúlacht OCR a leabú i bhfeidhmchláir eile. Ó thríú páirtithe a thacaíonn le Tesseract Comhéadain GUI is féidir leat a thabhairt faoi deara gImageReader, VietOCR и YAGF. Tairgtear dhá inneall aitheantais: ceann clasaiceach a aithníonn téacs ag leibhéal na bpatrún carachtair aonair, agus ceann nua atá bunaithe ar úsáid córas meaisínfhoghlama bunaithe ar líonra néarach athfhillteach LSTM, atá optamaithe chun teaghráin iomlána a aithint agus a cheadaíonn do a méadú suntasach ar chruinneas. Foilsítear múnlaí oilte réamhdhéanta le haghaidh 123 teanga. Chun an fheidhmíocht a bharrfheabhsú, tairgtear modúil a úsáideann treoracha OpenMP agus AVX2, AVX nó SSE4.1 SIMD.

An príomh- feabhsúcháin in Tesseract 4.1:

  • Cuireadh leis an gcumas aschur i bhformáid XML ALTO (Anailís Leagan Amach agus Téacs Réada). Chun an fhormáid seo a úsáid, ba chóir duit an feidhmchlár a rith mar “tessaract image_name alto output_dir”;
  • Cuireadh modúil rindreála nua LSTMBox agus WordStrBox leis, ag simpliú oiliúint innill;
  • Tacaíocht bhreise do pseudographics in aschur hOCR (HTML);
  • Cuireadh scripteanna malartacha leis scríofa i Python chun an t-inneall a oiliúint bunaithe ar mheaisínfhoghlaim;
  • leas iomlán a bhaint as treoracha AVX, AVX2 agus SSE;
  • Tá tacaíocht OpenMP díchumasaithe de réir réamhshocraithe mar gheall ar fadhbanna le táirgiúlacht;
  • Tacaíocht bhreise do liostaí bán agus dubh san inneall LSTM;
  • Scripteanna tógála feabhsaithe bunaithe ar Cmake.

Foinse: oscailtenet.ru

Add a comment