டெஸராக்ட் 5.2 உரை அங்கீகார அமைப்பின் வெளியீடு

Tesseract 5.2 ஆப்டிகல் டெக்ஸ்ட் ரெகக்னிஷன் சிஸ்டத்தின் வெளியீடு வெளியிடப்பட்டது, இது UTF-8 எழுத்துக்கள் மற்றும் 100க்கும் மேற்பட்ட மொழிகளில் ரஷ்ய, கசாக், பெலாரஷ்யன் மற்றும் உக்ரேனிய மொழிகளில் உள்ள உரைகளின் அங்கீகாரத்தை ஆதரிக்கிறது. முடிவை எளிய உரையில் அல்லது HTML (hOCR), ALTO (XML), PDF மற்றும் TSV வடிவங்களில் சேமிக்கலாம். இந்த அமைப்பு முதலில் 1985-1995 இல் ஹெவ்லெட் பேக்கர்டின் ஆய்வகத்தில் உருவாக்கப்பட்டது; 2005 இல், இந்த குறியீடு அப்பாச்சி உரிமத்தின் கீழ் திறக்கப்பட்டது மற்றும் கூகிள் ஊழியர்களின் பங்கேற்புடன் மேலும் உருவாக்கப்பட்டது. திட்டத்தின் மூலக் குறியீடு Apache 2.0 உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது.

டெசெராக்ட் ஒரு கன்சோல் பயன்பாடு மற்றும் பிற பயன்பாடுகளில் OCR செயல்பாட்டை உட்பொதிப்பதற்கான libtesseract நூலகத்தை உள்ளடக்கியது. Tesseract ஐ ஆதரிக்கும் மூன்றாம் தரப்பு GUI இடைமுகங்களில் gImageReader, VietOCR மற்றும் YAGF ஆகியவை அடங்கும். இரண்டு அங்கீகார இயந்திரங்கள் வழங்கப்படுகின்றன: தனிப்பட்ட எழுத்து வடிவங்களின் மட்டத்தில் உரையை அங்கீகரிக்கும் ஒரு உன்னதமானது, மற்றும் புதியது LSTM மறுநிகழ்வு நரம்பியல் வலையமைப்பை அடிப்படையாகக் கொண்ட இயந்திர கற்றல் அமைப்பின் பயன்பாட்டை அடிப்படையாகக் கொண்டது, இது முழு சரங்களை அடையாளம் காணவும் அனுமதிக்கவும் உகந்தது. துல்லியத்தில் குறிப்பிடத்தக்க அதிகரிப்பு. 123 மொழிகளுக்கு ஆயத்த பயிற்சி பெற்ற மாதிரிகள் வெளியிடப்பட்டுள்ளன. செயல்திறனை மேம்படுத்த, OpenMP மற்றும் SIMD வழிமுறைகளைப் பயன்படுத்தும் தொகுதிகள் AVX2, AVX, AVX512F, NEON அல்லது SSE4.1 வழங்கப்படுகின்றன.

Tesseract 5.2 இல் முக்கிய மேம்பாடுகள்:

  • Intel AVX512F வழிமுறைகளைப் பயன்படுத்தி செயல்படுத்தப்பட்ட மேம்படுத்தல்கள் சேர்க்கப்பட்டன.
  • C API ஆனது நினைவகத்திலிருந்து இயந்திர கற்றல் மாதிரியை ஏற்றுவதன் மூலம் டெசராக்டை துவக்குவதற்கான ஒரு செயல்பாட்டை செயல்படுத்துகிறது.
  • invert_threshold அளவுரு சேர்க்கப்பட்டது, இது உரை சரங்களின் தலைகீழ் நிலையை தீர்மானிக்கிறது. இயல்புநிலை மதிப்பு 0.7. தலைகீழ் மாற்றத்தை முடக்க, மதிப்பை 0 ஆக அமைக்கவும்.
  • 32-பிட் ஹோஸ்ட்களில் மிகப் பெரிய ஆவணங்களின் மேம்படுத்தப்பட்ட செயலாக்கம்.
  • std::regex செயல்பாடுகளைப் பயன்படுத்தி std::string க்கு மாற்றம் செய்யப்பட்டுள்ளது.
  • Autotools, CMake மற்றும் தொடர்ச்சியான ஒருங்கிணைப்பு அமைப்புகளுக்கான மேம்படுத்தப்பட்ட உருவாக்க ஸ்கிரிப்டுகள்.

    ஆதாரம்: opennet.ru

கருத்தைச் சேர்