පෙළ හඳුනාගැනීමේ පද්ධතිය නිකුත් කිරීම Tesseract 4.1

සකස් කර ඇත දෘශ්‍ය පෙළ හඳුනාගැනීමේ පද්ධතිය මුදා හැරීම ටෙසරැක්ට් 4.1, රුසියානු, කසකස්, බෙලරුසියානු සහ යුක්රේනියානු ඇතුළු භාෂා 8කට වඩා වැඩි ගණනකින් UTF-100 අක්ෂර සහ පෙළ හඳුනා ගැනීමට සහාය වීම. ප්‍රතිඵලය සරල පාඨයෙන් හෝ HTML (hOCR), ALTO (XML), PDF සහ TSV ආකෘතිවලින් සුරැකිය හැක. පද්ධතිය මුලින් 1985-1995 Hewlett Packard රසායනාගාරයේ නිර්මාණය කරන ලදී; 2005 දී, කේතය Apache බලපත්‍රය යටතේ විවෘත කරන ලද අතර Google සේවකයින්ගේ සහභාගීත්වයෙන් එය තවදුරටත් සංවර්ධනය කරන ලදී. ව්යාපෘති මූලාශ්ර බෝ වීම Apache 2.0 යටතේ බලපත්‍ර ලබා ඇත.

වෙනත් යෙදුම් වලට OCR ක්‍රියාකාරීත්වය කාවැද්දීම සඳහා Tesseract හි කොන්සෝල උපයෝගිතා සහ libtesseract පුස්තකාලය ඇතුළත් වේ. Tesseract ට සහාය දක්වන තෙවන පාර්ශවයන්ගෙන් GUI අතුරුමුහුණත් ඔබට සටහන් කළ හැකිය gImageReader, VietOCR и YAGF. හඳුනාගැනීමේ එන්ජින් දෙකක් පිරිනමනු ලැබේ: තනි අක්ෂර රටා මට්ටමින් පෙළ හඳුනා ගන්නා සම්භාව්‍ය එකක් සහ LSTM පුනරාවර්තන ස්නායුක ජාලයක් මත පදනම් වූ යන්ත්‍ර ඉගෙනුම් පද්ධතියක් භාවිතා කිරීම මත පදනම් වූ නව එකක්, සම්පූර්ණ නූල් හඳුනා ගැනීමට සහ ඉඩ දීමට ප්‍රශස්ත කර ඇත. නිරවද්යතාවයේ සැලකිය යුතු වැඩි වීමක්. සඳහා සූදානම් පුහුණු ආකෘති ප්‍රකාශයට පත් කෙරේ භාෂා 123 ක්. කාර්ය සාධනය ප්‍රශස්ත කිරීම සඳහා, OpenMP සහ AVX2, AVX හෝ SSE4.1 SIMD උපදෙස් භාවිතා කරන මොඩියුල පිරිනමනු ලැබේ.

ප්රධාන වැඩිදියුණු කිරීම් ටෙසරැක්ට් 4.1 හි:

  • XML ආකෘතියෙන් ප්‍රතිදානය කිරීමේ හැකියාව එක් කරන ලදී ALTO (විශ්ලේෂණාත්මක පිරිසැලසුම සහ පෙළ වස්තුව). මෙම ආකෘතිය භාවිතා කිරීමට, ඔබ යෙදුම "tessaract image_name alto output_dir" ලෙස ධාවනය කළ යුතුය;
  • නව විදැහුම් මොඩියුල එකතු කරන ලද LSTMBox සහ WordStrBox, එන්ජින් පුහුණුව සරල කිරීම;
  • hOCR (HTML) ප්‍රතිදානය තුළ ව්‍යාජ ග්‍රැෆික්ස් සඳහා සහය එක් කරන ලදී;
  • යන්ත්‍ර ඉගෙනීම මත පදනම්ව එන්ජිම පුහුණු කිරීම සඳහා පයිතන් හි ලියා ඇති විකල්ප ස්ක්‍රිප්ට් එකතු කරන ලදී;
  • AVX, AVX2 සහ SSE උපදෙස් භාවිතයෙන් පුළුල් කරන ලද ප්‍රශස්තකරණයන්;
  • OpenMP සහාය පෙරනිමියෙන් අබල කර ඇත ගැටලු ඵලදායිතාව සමඟ;
  • LSTM එන්ජිමෙහි සුදු සහ කළු ලැයිස්තු සඳහා සහය එකතු කරන ලදි;
  • Cmake මත පදනම් වූ වැඩි දියුණු කළ ගොඩනැගීමේ ස්ක්‍රිප්ට්.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න