د Tesseract 4.1 آپټیکل متن پیژندنې سیسټم خپور شوی، د UTF-8 حروفونو او متنونو پیژندلو ملاتړ کوي په 100 ژبو کې، په شمول د روسیې، قزاق، بیلاروس او اوکراین. پایله په ساده متن کې یا په HTML (hOCR) ، ALTO (XML) ، PDF او TSV فارمیټونو کې خوندي کیدی شي. دا سیسټم په اصل کې په 1985-1995 کې د Hewlett Packard لابراتوار کې رامینځته شوی؛ په 2005 کې، کوډ د اپاچي جواز لاندې پرانستل شو او د ګوګل کارمندانو په ګډون سره نور هم پراختیا شو. د پروژې سرچینه کوډ د اپاچی 2.0 جواز لاندې ویشل شوی.
Tesseract د نورو غوښتنلیکونو کې د OCR فعالیت ځای پرځای کولو لپاره د کنسول یوټیلیټ او د لیبټسیرکټ کتابتون شامل دي. د دریمې ډلې GUI انٹرفیس چې د Tesseract ملاتړ کوي شامل دي gImageReader، VietOCR او YAGF. د پیژندنې دوه انجنونه وړاندیز شوي: یو کلاسیک چې د انفرادي کرکټر نمونو په کچه متن پیژني، او یو نوی د ماشین زده کړې سیسټم کارولو پراساس د LSTM تکرار عصبي شبکې پراساس، د ټولو تارونو پیژندلو لپاره غوره شوی او اجازه ورکوي په دقت کې د پام وړ زیاتوالی. د 123 ژبو لپاره چمتو شوي روزل شوي ماډلونه خپاره شوي. د فعالیت غوره کولو لپاره، د OpenMP او SIMD لارښوونې AVX2، AVX، NEON یا SSE4.1 کارولو ماډلونه وړاندیز شوي.
په Tesseract 5.0 کې لوی پرمختګونه:
- د نسخې شمیر کې د پام وړ بدلون د API کې د بدلونونو له امله دی چې مطابقت ماتوي. په ځانګړې توګه، په عامه توګه موجود libtesseract API نور د ملکیت GenericVector او STRING ډیټا ډولونو سره تړاو نلري، د std::string او std::vector په ګټه.
- د سرچینې متن ونې بیا تنظیم شوې. د عامه سرلیک فایلونه د شامل/ټیسرکټ لارښود ته لیږدول شوي.
- د حافظې مدیریت له سره ډیزاین شوی، ټول مالوک او وړیا تلیفونونه د C++ کوډ سره بدل شوي. د کوډ عمومي عصري کول ترسره شوي.
- د ARM او ARM64 معمارۍ لپاره اضافه شوي اصلاح کول؛ د ARM NEON لارښوونې د محاسبې ګړندي کولو لپاره کارول کیږي. د فعالیت اصلاح کول د ټولو جوړښتونو لپاره عام دي.
- د روزنې ماډلونو او متن پیژندنې لپاره نوي طریقې د فلوټینګ پوائنټ محاسبې کارولو پراساس پلي شوي. نوي ماډلونه لوړ فعالیت او د حافظې ټیټ مصرف وړاندیز کوي. په LSTM انجن کې، float32 چټک حالت د ډیفالټ په واسطه فعال شوی.
- د NFC (نورمالیزیشن فارم کینونیکي) فارم په کارولو سره د یونیکوډ نورمال کولو کارولو لپاره لیږد رامینځته شوی.
- د لاګ توضیحاتو تنظیم کولو لپاره یو اختیار اضافه کړ (--loglevel).
- د Autotools پر بنسټ د جوړونې سیسټم له سره ډیزاین شوی او په غیر تکراري حالت کې د جوړولو لپاره سویچ شوی.
- په ګیټ کې د "ماسټر" څانګې نوم "مین" ته بدل شوی.
- د M1 چپ پراساس د macOS او Apple سیسټمونو نوي ریلیزونو لپاره ملاتړ اضافه شوی.
سرچینه: opennet.ru