టెక్స్ట్ రికగ్నిషన్ సిస్టమ్ యొక్క విడుదల Tesseract 5.0

Tesseract 4.1 ఆప్టికల్ టెక్స్ట్ రికగ్నిషన్ సిస్టమ్ విడుదల ప్రచురించబడింది, రష్యన్, కజఖ్, బెలారసియన్ మరియు ఉక్రేనియన్‌లతో సహా 8 కంటే ఎక్కువ భాషల్లో UTF-100 అక్షరాలు మరియు టెక్స్ట్‌ల గుర్తింపుకు మద్దతు ఇస్తుంది. ఫలితాన్ని సాదా వచనంలో లేదా HTML (hOCR), ALTO (XML), PDF మరియు TSV ఫార్మాట్‌లలో సేవ్ చేయవచ్చు. ఈ వ్యవస్థ వాస్తవానికి 1985-1995లో హ్యూలెట్ ప్యాకర్డ్ ప్రయోగశాలలో సృష్టించబడింది; 2005లో, ఈ కోడ్ అపాచీ లైసెన్స్ క్రింద తెరవబడింది మరియు Google ఉద్యోగుల భాగస్వామ్యంతో మరింత అభివృద్ధి చేయబడింది. ప్రాజెక్ట్ యొక్క సోర్స్ కోడ్ Apache 2.0 లైసెన్స్ క్రింద పంపిణీ చేయబడింది.

Tesseract ఇతర అప్లికేషన్‌లలో OCR కార్యాచరణను పొందుపరచడానికి కన్సోల్ యుటిలిటీ మరియు libtesseract లైబ్రరీని కలిగి ఉంటుంది. టెస్సెరాక్ట్‌కు మద్దతు ఇచ్చే థర్డ్-పార్టీ GUI ఇంటర్‌ఫేస్‌లలో gImageReader, VietOCR మరియు YAGF ఉన్నాయి. రెండు రికగ్నిషన్ ఇంజన్‌లు అందించబడ్డాయి: వ్యక్తిగత అక్షర నమూనాల స్థాయిలో వచనాన్ని గుర్తించే క్లాసిక్ ఒకటి మరియు LSTM పునరావృత న్యూరల్ నెట్‌వర్క్ ఆధారంగా మెషీన్ లెర్నింగ్ సిస్టమ్ యొక్క ఉపయోగం ఆధారంగా కొత్తది, మొత్తం స్ట్రింగ్‌లను గుర్తించడానికి మరియు అనుమతించడానికి అనుకూలీకరించబడింది. ఖచ్చితత్వంలో గణనీయమైన పెరుగుదల. 123 భాషల కోసం రెడీమేడ్ శిక్షణ పొందిన నమూనాలు ప్రచురించబడ్డాయి. పనితీరును ఆప్టిమైజ్ చేయడానికి, OpenMP మరియు SIMD సూచనలను ఉపయోగించి మాడ్యూల్స్ AVX2, AVX, NEON లేదా SSE4.1 అందించబడతాయి.

Tesseract 5.0లో ప్రధాన మెరుగుదలలు:

  • అనుకూలతను విచ్ఛిన్నం చేసే APIకి చేసిన మార్పుల కారణంగా సంస్కరణ సంఖ్యలో గణనీయమైన మార్పు వచ్చింది. ప్రత్యేకించి, పబ్లిక్ libtesseract API ఇకపై std::string మరియు std::vectorకి అనుకూలంగా యాజమాన్య జెనెరిక్‌వెక్టర్ మరియు STRING డేటా రకాలతో ముడిపడి ఉండదు.
  • మూల వచన చెట్టు పునర్వ్యవస్థీకరించబడింది. పబ్లిక్ హెడర్ ఫైల్‌లు చేర్చబడిన/టెసెరాక్ట్ డైరెక్టరీకి తరలించబడ్డాయి.
  • మెమరీ నిర్వహణ పునఃరూపకల్పన చేయబడింది, అన్ని malloc మరియు ఉచిత కాల్‌లు C++ కోడ్‌తో భర్తీ చేయబడ్డాయి. కోడ్ యొక్క సాధారణ ఆధునికీకరణ నిర్వహించబడింది.
  • ARM మరియు ARM64 ఆర్కిటెక్చర్‌ల కోసం ఆప్టిమైజేషన్‌లు జోడించబడ్డాయి; గణనలను వేగవంతం చేయడానికి ARM NEON సూచనలు ఉపయోగించబడతాయి. అన్ని ఆర్కిటెక్చర్‌లకు సాధారణ పనితీరు ఆప్టిమైజేషన్ నిర్వహించబడింది.
  • శిక్షణ నమూనాల కోసం కొత్త మోడ్‌లు మరియు ఫ్లోటింగ్ పాయింట్ లెక్కల ఉపయోగం ఆధారంగా టెక్స్ట్ గుర్తింపు అమలు చేయబడ్డాయి. కొత్త మోడ్‌లు అధిక పనితీరు మరియు తక్కువ మెమరీ వినియోగాన్ని అందిస్తాయి. LSTM ఇంజిన్‌లో, float32 ఫాస్ట్ మోడ్ డిఫాల్ట్‌గా ప్రారంభించబడింది.
  • NFC (నార్మలైజేషన్ ఫారమ్ కానానికల్) ఫారమ్‌ని ఉపయోగించి యూనికోడ్ సాధారణీకరణను ఉపయోగించేందుకు మార్పు చేయబడింది.
  • లాగ్ డిటైలింగ్ (--loglevel)ని కాన్ఫిగర్ చేయడానికి ఒక ఐచ్ఛికం జోడించబడింది.
  • Autotools ఆధారిత బిల్డ్ సిస్టమ్ పునఃరూపకల్పన చేయబడింది మరియు నాన్-రికర్సివ్ మోడ్‌లో నిర్మించడానికి మార్చబడింది.
  • Gitలోని "మాస్టర్" శాఖ పేరు "ప్రధాన"గా మార్చబడింది.
  • M1 చిప్ ఆధారంగా MacOS మరియు Apple సిస్టమ్‌ల యొక్క కొత్త విడుదలలకు మద్దతు జోడించబడింది.

    మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి