டெஸராக்ட் 5.1 உரை அங்கீகார அமைப்பின் வெளியீடு

Tesseract 5.1 ஆப்டிகல் டெக்ஸ்ட் ரெகக்னிஷன் சிஸ்டத்தின் வெளியீடு வெளியிடப்பட்டது, இது UTF-8 எழுத்துக்கள் மற்றும் 100க்கும் மேற்பட்ட மொழிகளில் ரஷ்ய, கசாக், பெலாரஷ்யன் மற்றும் உக்ரேனிய மொழிகளில் உள்ள உரைகளின் அங்கீகாரத்தை ஆதரிக்கிறது. முடிவை எளிய உரையில் அல்லது HTML (hOCR), ALTO (XML), PDF மற்றும் TSV வடிவங்களில் சேமிக்கலாம். இந்த அமைப்பு முதலில் 1985-1995 இல் ஹெவ்லெட் பேக்கர்டின் ஆய்வகத்தில் உருவாக்கப்பட்டது; 2005 இல், இந்த குறியீடு அப்பாச்சி உரிமத்தின் கீழ் திறக்கப்பட்டது மற்றும் கூகிள் ஊழியர்களின் பங்கேற்புடன் மேலும் உருவாக்கப்பட்டது. திட்டத்தின் மூலக் குறியீடு Apache 2.0 உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது.

டெசெராக்ட் ஒரு கன்சோல் பயன்பாடு மற்றும் பிற பயன்பாடுகளில் OCR செயல்பாட்டை உட்பொதிப்பதற்கான libtesseract நூலகத்தை உள்ளடக்கியது. டெஸராக்டை ஆதரிக்கும் மூன்றாம் தரப்பு GUI இடைமுகங்களில் gImageReader, VietOCR மற்றும் YAGF ஆகியவை அடங்கும். இரண்டு அங்கீகார இயந்திரங்கள் வழங்கப்படுகின்றன: தனித்தனி எழுத்து வடிவங்களின் அளவில் உரையை அங்கீகரிக்கும் உன்னதமானது, மற்றும் புதியது LSTM மறுநிகழ்வு நரம்பியல் வலையமைப்பை அடிப்படையாகக் கொண்ட இயந்திர கற்றல் அமைப்பின் பயன்பாட்டை அடிப்படையாகக் கொண்டது, இது முழு சரங்களையும் அங்கீகரிப்பதற்காக உகந்ததாக உள்ளது. துல்லியத்தில் குறிப்பிடத்தக்க அதிகரிப்பு. 123 மொழிகளுக்கான ஆயத்த பயிற்சி பெற்ற மாதிரிகள் வெளியிடப்பட்டுள்ளன. செயல்திறனை மேம்படுத்த, OpenMP மற்றும் SIMD வழிமுறைகளைப் பயன்படுத்தும் தொகுதிகள் AVX2, AVX, NEON அல்லது SSE4.1 வழங்கப்படுகின்றன.

Tesseract 5.1 இல் முக்கிய மேம்பாடுகள்:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • மேம்படுத்தப்பட்ட உருவாக்க அமைப்பு.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்