టెక్స్ట్ రికగ్నిషన్ సిస్టమ్ యొక్క విడుదల Tesseract 5.2

Tesseract 5.2 ఆప్టికల్ టెక్స్ట్ రికగ్నిషన్ సిస్టమ్ విడుదల ప్రచురించబడింది, రష్యన్, కజఖ్, బెలారసియన్ మరియు ఉక్రేనియన్‌లతో సహా 8 కంటే ఎక్కువ భాషల్లో UTF-100 అక్షరాలు మరియు టెక్స్ట్‌ల గుర్తింపుకు మద్దతు ఇస్తుంది. ఫలితాన్ని సాదా వచనంలో లేదా HTML (hOCR), ALTO (XML), PDF మరియు TSV ఫార్మాట్‌లలో సేవ్ చేయవచ్చు. ఈ వ్యవస్థ వాస్తవానికి 1985-1995లో హ్యూలెట్ ప్యాకర్డ్ ప్రయోగశాలలో సృష్టించబడింది; 2005లో, ఈ కోడ్ అపాచీ లైసెన్స్ క్రింద తెరవబడింది మరియు Google ఉద్యోగుల భాగస్వామ్యంతో మరింత అభివృద్ధి చేయబడింది. ప్రాజెక్ట్ యొక్క సోర్స్ కోడ్ Apache 2.0 లైసెన్స్ క్రింద పంపిణీ చేయబడింది.

Tesseract ఇతర అప్లికేషన్‌లలో OCR కార్యాచరణను పొందుపరచడానికి కన్సోల్ యుటిలిటీ మరియు libtesseract లైబ్రరీని కలిగి ఉంటుంది. టెస్సెరాక్ట్‌కు మద్దతు ఇచ్చే థర్డ్-పార్టీ GUI ఇంటర్‌ఫేస్‌లలో gImageReader, VietOCR మరియు YAGF ఉన్నాయి. రెండు రికగ్నిషన్ ఇంజన్‌లు అందించబడ్డాయి: వ్యక్తిగత అక్షర నమూనాల స్థాయిలో వచనాన్ని గుర్తించే క్లాసిక్ ఒకటి మరియు LSTM పునరావృత న్యూరల్ నెట్‌వర్క్ ఆధారంగా మెషీన్ లెర్నింగ్ సిస్టమ్ యొక్క ఉపయోగం ఆధారంగా కొత్తది, మొత్తం స్ట్రింగ్‌లను గుర్తించడానికి మరియు అనుమతించడానికి అనుకూలీకరించబడింది. ఖచ్చితత్వంలో గణనీయమైన పెరుగుదల. 123 భాషల కోసం రెడీమేడ్ శిక్షణ పొందిన నమూనాలు ప్రచురించబడ్డాయి. పనితీరును ఆప్టిమైజ్ చేయడానికి, OpenMP మరియు SIMD సూచనలను ఉపయోగించి మాడ్యూల్స్ AVX2, AVX, AVX512F, NEON లేదా SSE4.1 అందించబడతాయి.

Tesseract 5.2లో ప్రధాన మెరుగుదలలు:

  • Intel AVX512F సూచనలను ఉపయోగించి అమలు చేయబడిన ఆప్టిమైజేషన్‌లు జోడించబడ్డాయి.
  • C API మెమరీ నుండి మెషీన్ లెర్నింగ్ మోడల్‌ను లోడ్ చేయడంతో టెస్సెరాక్ట్‌ను ప్రారంభించే ఫంక్షన్‌ను అమలు చేస్తుంది.
  • invert_threshold పరామితి జోడించబడింది, ఇది టెక్స్ట్ స్ట్రింగ్‌ల విలోమ స్థాయిని నిర్ణయిస్తుంది. డిఫాల్ట్ విలువ 0.7. విలోమాన్ని నిలిపివేయడానికి, విలువను 0కి సెట్ చేయండి.
  • 32-బిట్ హోస్ట్‌లలో చాలా పెద్ద డాక్యుమెంట్‌ల ప్రాసెసింగ్ మెరుగుపరచబడింది.
  • std::regex ఫంక్షన్‌లను ఉపయోగించడం నుండి std::stringకి మార్పు చేయబడింది.
  • Autotools, CMake మరియు నిరంతర ఇంటిగ్రేషన్ సిస్టమ్‌ల కోసం మెరుగైన బిల్డ్ స్క్రిప్ట్‌లు.

    మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి