டெஸராக்ட் 4.1 உரை அங்கீகார அமைப்பின் வெளியீடு

தயார் செய்யப்பட்டது ஒளியியல் உரை அங்கீகார அமைப்பின் வெளியீடு டெசராக்ட் 4.1, ரஷ்யன், கசாக், பெலாரஷியன் மற்றும் உக்ரைனியன் உட்பட 8க்கும் மேற்பட்ட மொழிகளில் UTF-100 எழுத்துக்கள் மற்றும் உரைகளை அங்கீகரிப்பதை ஆதரிக்கிறது. முடிவை எளிய உரையில் அல்லது HTML (hOCR), ALTO (XML), PDF மற்றும் TSV வடிவங்களில் சேமிக்கலாம். இந்த அமைப்பு முதலில் 1985-1995 இல் ஹெவ்லெட் பேக்கார்ட் ஆய்வகத்தில் உருவாக்கப்பட்டது; 2005 இல், இந்த குறியீடு அப்பாச்சி உரிமத்தின் கீழ் திறக்கப்பட்டது மற்றும் கூகிள் ஊழியர்களின் பங்கேற்புடன் மேலும் உருவாக்கப்பட்டது. திட்ட ஆதாரங்கள் பரவுதல் Apache 2.0 இன் கீழ் உரிமம் பெற்றது.

டெசெராக்ட் ஒரு கன்சோல் பயன்பாடு மற்றும் பிற பயன்பாடுகளில் OCR செயல்பாட்டை உட்பொதிப்பதற்கான libtesseract நூலகத்தை உள்ளடக்கியது. டெசராக்டை ஆதரிக்கும் மூன்றாம் தரப்பினரிடமிருந்து GUI இடைமுகங்கள் நீங்கள் கவனிக்க முடியும் gImageReader, VietOCR и YAGF. இரண்டு அங்கீகார இயந்திரங்கள் வழங்கப்படுகின்றன: தனித்தனி எழுத்து வடிவங்களின் அளவில் உரையை அங்கீகரிக்கும் உன்னதமானது, மற்றும் புதியது LSTM மறுநிகழ்வு நரம்பியல் வலையமைப்பை அடிப்படையாகக் கொண்ட இயந்திர கற்றல் அமைப்பின் பயன்பாட்டை அடிப்படையாகக் கொண்டது, இது முழு சரங்களையும் அங்கீகரிப்பதற்காக உகந்ததாக உள்ளது. துல்லியத்தில் குறிப்பிடத்தக்க அதிகரிப்பு. தயாராக தயாரிக்கப்பட்ட பயிற்சி மாதிரிகள் வெளியிடப்படுகின்றன 123 மொழிகள். செயல்திறனை மேம்படுத்த, OpenMP மற்றும் AVX2, AVX அல்லது SSE4.1 SIMD வழிமுறைகளைப் பயன்படுத்தும் தொகுதிகள் வழங்கப்படுகின்றன.

முக்கிய மேம்பாடுகள் டெசராக்ட் 4.1 இல்:

  • எக்ஸ்எம்எல் வடிவத்தில் வெளியிடும் திறன் சேர்க்கப்பட்டது ALTO (பகுப்பாய்வு செய்யப்பட்ட தளவமைப்பு மற்றும் உரை பொருள்). இந்த வடிவமைப்பைப் பயன்படுத்த, நீங்கள் பயன்பாட்டை "tessaract image_name alto output_dir" ஆக இயக்க வேண்டும்;
  • புதிய ரெண்டரிங் தொகுதிகள் LSTMBox மற்றும் WordStrBox சேர்க்கப்பட்டது, இயந்திர பயிற்சியை எளிதாக்குகிறது;
  • hOCR (HTML) வெளியீட்டில் சூடோகிராபிக்ஸிற்கான ஆதரவு சேர்க்கப்பட்டது;
  • இயந்திர கற்றலின் அடிப்படையில் இயந்திரத்தைப் பயிற்றுவிப்பதற்காக பைத்தானில் எழுதப்பட்ட மாற்று ஸ்கிரிப்ட்களைச் சேர்த்தது;
  • AVX, AVX2 மற்றும் SSE வழிமுறைகளைப் பயன்படுத்தி விரிவாக்கப்பட்ட மேம்படுத்தல்கள்;
  • OpenMP ஆதரவு முன்னிருப்பாக இதன் காரணமாக முடக்கப்பட்டுள்ளது பிரச்சனைகள் உற்பத்தித்திறனுடன்;
  • LSTM இயந்திரத்தில் வெள்ளை மற்றும் கருப்பு பட்டியல்களுக்கான ஆதரவு சேர்க்கப்பட்டது;
  • Cmake அடிப்படையில் மேம்படுத்தப்பட்ட உருவாக்க ஸ்கிரிப்டுகள்.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்