පෙළ හඳුනාගැනීමේ පද්ධතිය නිකුත් කිරීම Tesseract 5.1

රුසියානු, කසකස්, බෙලරුසියානු සහ යුක්රේනියානු ඇතුළු භාෂා 5.1කට වඩා වැඩි ගණනකින් UTF-8 අක්ෂර සහ පෙළ හඳුනා ගැනීමට සහාය වන Tesseract 100 දෘශ්‍ය පෙළ හඳුනාගැනීමේ පද්ධතිය ප්‍රකාශයට පත් කර ඇත. ප්‍රතිඵලය සරල පාඨයෙන් හෝ HTML (hOCR), ALTO (XML), PDF සහ TSV ආකෘතිවලින් සුරැකිය හැක. පද්ධතිය මුලින් 1985-1995 Hewlett Packard රසායනාගාරයේ නිර්මාණය කරන ලදී; 2005 දී, කේතය Apache බලපත්‍රය යටතේ විවෘත කරන ලද අතර Google සේවකයින්ගේ සහභාගීත්වයෙන් එය තවදුරටත් සංවර්ධනය කරන ලදී. ව්‍යාපෘතියේ මූල කේතය Apache 2.0 බලපත්‍රය යටතේ බෙදා හැරේ.

වෙනත් යෙදුම් වලට OCR ක්‍රියාකාරීත්වය කාවැද්දීම සඳහා Tesseract හි කොන්සෝල උපයෝගිතා සහ libtesseract පුස්තකාලය ඇතුළත් වේ. Tesseract සඳහා සහාය දක්වන තෙවන පාර්ශවීය GUI අතුරුමුහුණත් අතර gImageReader, VietOCR සහ YAGF ඇතුළත් වේ. හඳුනාගැනීමේ එන්ජින් දෙකක් පිරිනමනු ලැබේ: තනි අක්ෂර රටා මට්ටමින් පෙළ හඳුනා ගන්නා සම්භාව්‍ය එකක් සහ LSTM පුනරාවර්තන ස්නායුක ජාලයක් මත පදනම් වූ යන්ත්‍ර ඉගෙනුම් පද්ධතියක් භාවිතා කිරීම මත පදනම් වූ නව එකක්, සම්පූර්ණ තන්තු හඳුනා ගැනීමට සහ ඉඩ දීමට ප්‍රශස්ත කර ඇත. නිරවද්යතාවයේ සැලකිය යුතු වැඩි වීමක්. සූදානම් පුහුණු ආකෘති භාෂා 123 සඳහා ප්‍රකාශයට පත් කර ඇත. කාර්ය සාධනය ප්‍රශස්ත කිරීම සඳහා, OpenMP සහ SIMD උපදෙස් භාවිතා කරන මොඩියුල AVX2, AVX, NEON හෝ SSE4.1 පිරිනමනු ලැබේ.

Tesseract 5.1 හි ප්‍රධාන වැඩිදියුණු කිරීම්:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • වැඩිදියුණු කළ ගොඩනැගීමේ පද්ධතිය.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න