පෙළ හඳුනාගැනීමේ පද්ධතිය නිකුත් කිරීම Tesseract 5.3.4

රුසියානු, කසකස්, බෙලරුසියානු සහ යුක්රේනියානු ඇතුළු භාෂා 5.3.4කට වඩා වැඩි ගණනකින් UTF-8 අක්ෂර සහ පෙළ හඳුනා ගැනීමට සහාය වන Tesseract 100 දෘශ්‍ය පෙළ හඳුනාගැනීමේ පද්ධතිය ප්‍රකාශයට පත් කර ඇත. ප්‍රතිඵලය සරල පාඨයෙන් හෝ HTML (hOCR), ALTO (XML), PDF සහ TSV ආකෘතිවලින් සුරැකිය හැක. පද්ධතිය මුලින් 1985-1995 Hewlett Packard රසායනාගාරයේ නිර්මාණය කරන ලදී; 2005 දී, කේතය Apache බලපත්‍රය යටතේ විවෘත කරන ලද අතර Google සේවකයින්ගේ සහභාගීත්වයෙන් එය තවදුරටත් සංවර්ධනය කරන ලදී. ව්‍යාපෘතියේ මූල කේතය Apache 2.0 බලපත්‍රය යටතේ බෙදා හැරේ.

වෙනත් යෙදුම් වලට OCR ක්‍රියාකාරීත්වය කාවැද්දීම සඳහා Tesseract හි කොන්සෝල උපයෝගිතා සහ libtesseract පුස්තකාලය ඇතුළත් වේ. Tesseract සඳහා සහාය දක්වන තෙවන පාර්ශවීය GUI අතුරුමුහුණත් අතර gImageReader, VietOCR සහ YAGF ඇතුළත් වේ. හඳුනාගැනීමේ එන්ජින් දෙකක් පිරිනමනු ලැබේ: තනි අක්ෂර රටා මට්ටමින් පෙළ හඳුනා ගන්නා සම්භාව්‍ය එකක් සහ LSTM පුනරාවර්තන ස්නායුක ජාලයක් මත පදනම් වූ යන්ත්‍ර ඉගෙනුම් පද්ධතියක් භාවිතා කිරීම මත පදනම් වූ නව එකක්, සම්පූර්ණ නූල් හඳුනා ගැනීමට සහ ඉඩ දීමට ප්‍රශස්ත කර ඇත. නිරවද්යතාවයේ සැලකිය යුතු වැඩි වීමක්. සූදානම් පුහුණු ආකෘති භාෂා 123 සඳහා ප්‍රකාශයට පත් කර ඇත. කාර්ය සාධනය ප්‍රශස්ත කිරීම සඳහා, OpenMP සහ SIMD උපදෙස් භාවිතා කරන මොඩියුල AVX2, AVX, AVX512F, NEON හෝ SSE4.1 පිරිනමනු ලැබේ.

ප්රධාන වැඩිදියුණු කිරීම්:

  • libcurl පුස්තකාලය භාවිතයෙන් ගොනු බාගත කිරීම සමඟ URL මගින් රූප හඳුනාගැනීම වැඩිදියුණු කර ඇත. පූරණය වන විට, පරිශීලක නියෝජිත ශීර්ෂය සකසා ඇත. කුකී ගොනුවක් භාවිතා කිරීම සඳහා curl_cookiefile නව පරාමිතිය එක් කරන ලදී.
  • ScrollView සේවාදායකය TCP එහි කැමති ප්‍රොටෝකෝලය ලෙස භාවිතා කරයි.
  • "combine_tessdata -d" විධානය භාවිතා කරන විට, stderr වෙනුවට stdout වෙත ප්‍රතිදානය සපයනු ලැබේ.
  • autoconf සහ clang භාවිතා කරන විට ස්ථාවර ගොඩනැගීමේ ගැටළු.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න