டெஸராக்ட் 5.3.4 உரை அங்கீகார அமைப்பின் வெளியீடு

Tesseract 5.3.4 ஆப்டிகல் டெக்ஸ்ட் ரெகக்னிஷன் சிஸ்டத்தின் வெளியீடு வெளியிடப்பட்டது, இது UTF-8 எழுத்துக்கள் மற்றும் 100க்கும் மேற்பட்ட மொழிகளில் ரஷ்ய, கசாக், பெலாரஷ்யன் மற்றும் உக்ரேனிய மொழிகளில் உள்ள உரைகளின் அங்கீகாரத்தை ஆதரிக்கிறது. முடிவை எளிய உரையில் அல்லது HTML (hOCR), ALTO (XML), PDF மற்றும் TSV வடிவங்களில் சேமிக்கலாம். இந்த அமைப்பு முதலில் 1985-1995 இல் ஹெவ்லெட் பேக்கர்டின் ஆய்வகத்தில் உருவாக்கப்பட்டது; 2005 இல், இந்த குறியீடு அப்பாச்சி உரிமத்தின் கீழ் திறக்கப்பட்டது மற்றும் கூகிள் ஊழியர்களின் பங்கேற்புடன் மேலும் உருவாக்கப்பட்டது. திட்டத்தின் மூலக் குறியீடு Apache 2.0 உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது.

டெசெராக்ட் ஒரு கன்சோல் பயன்பாடு மற்றும் பிற பயன்பாடுகளில் OCR செயல்பாட்டை உட்பொதிப்பதற்கான libtesseract நூலகத்தை உள்ளடக்கியது. Tesseract ஐ ஆதரிக்கும் மூன்றாம் தரப்பு GUI இடைமுகங்களில் gImageReader, VietOCR மற்றும் YAGF ஆகியவை அடங்கும். இரண்டு அங்கீகார இயந்திரங்கள் வழங்கப்படுகின்றன: தனிப்பட்ட எழுத்து வடிவங்களின் மட்டத்தில் உரையை அங்கீகரிக்கும் ஒரு உன்னதமானது, மற்றும் புதியது LSTM மறுநிகழ்வு நரம்பியல் வலையமைப்பை அடிப்படையாகக் கொண்ட இயந்திர கற்றல் அமைப்பின் பயன்பாட்டை அடிப்படையாகக் கொண்டது, இது முழு சரங்களை அடையாளம் காணவும் அனுமதிக்கவும் உகந்தது. துல்லியத்தில் குறிப்பிடத்தக்க அதிகரிப்பு. 123 மொழிகளுக்கு ஆயத்த பயிற்சி பெற்ற மாதிரிகள் வெளியிடப்பட்டுள்ளன. செயல்திறனை மேம்படுத்த, OpenMP மற்றும் SIMD வழிமுறைகளைப் பயன்படுத்தும் தொகுதிகள் AVX2, AVX, AVX512F, NEON அல்லது SSE4.1 வழங்கப்படுகின்றன.

முக்கிய மேம்பாடுகள்:

  • libcurl நூலகத்தைப் பயன்படுத்தி கோப்புப் பதிவிறக்கத்துடன் URL மூலம் மேம்படுத்தப்பட்ட பட அங்கீகாரம். ஏற்றும்போது, ​​பயனர் முகவர் தலைப்பு அமைக்கப்பட்டது. குக்கீ கோப்பைப் பயன்படுத்துவதற்கு curl_cookiefile என்ற புதிய அளவுரு சேர்க்கப்பட்டது.
  • ScrollView சேவையகம் TCP ஐ அதன் விருப்பமான நெறிமுறையாகப் பயன்படுத்துகிறது.
  • "combine_tessdata -d" கட்டளையைப் பயன்படுத்தும் போது, ​​stderrக்கு பதிலாக stdout க்கு வெளியீடு வழங்கப்படுகிறது.
  • autoconf மற்றும் கணகண வென்ற சப்தம் பயன்படுத்தும் போது நிலையான உருவாக்க சிக்கல்கள்.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்