การเปิดตัวระบบจดจำข้อความ Tesseract 5.3.4

ระบบการรู้จำข้อความแบบออปติคอล Tesseract 5.3.4 ได้รับการเผยแพร่แล้ว โดยรองรับการจดจำอักขระและข้อความ UTF-8 ในกว่า 100 ภาษา รวมถึงภาษารัสเซีย คาซัค เบลารุส และยูเครน ผลลัพธ์สามารถบันทึกเป็นข้อความธรรมดาหรือในรูปแบบ HTML (hOCR), ALTO (XML), PDF และ TSV เดิมระบบถูกสร้างขึ้นในปี 1985-1995 ในห้องปฏิบัติการของ Hewlett Packard และในปี 2005 รหัสดังกล่าวถูกเปิดภายใต้ใบอนุญาต Apache และได้รับการพัฒนาเพิ่มเติมโดยการมีส่วนร่วมของพนักงาน Google ซอร์สโค้ดของโครงการได้รับการเผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0

Tesseract มีคอนโซลยูทิลิตี้และไลบรารี libtesseract สำหรับฝังฟังก์ชัน OCR ลงในแอปพลิเคชันอื่น อินเทอร์เฟซ GUI ของบริษัทอื่นที่รองรับ Tesseract ได้แก่ gImageReader, VietOCR และ YAGF มีการเสนอเอ็นจิ้นการรู้จำสองแบบ: แบบคลาสสิกที่จดจำข้อความในระดับรูปแบบตัวอักษรแต่ละตัว และอันใหม่ที่ใช้ระบบการเรียนรู้ของเครื่องจักรบนโครงข่ายประสาทเทียมที่เกิดซ้ำ LSTM ปรับให้เหมาะสมสำหรับการรับรู้สตริงทั้งหมดและอนุญาตให้ ความแม่นยำเพิ่มขึ้นอย่างมาก โมเดลที่ผ่านการฝึกอบรมสำเร็จรูปได้รับการเผยแพร่ใน 123 ภาษา เพื่อเพิ่มประสิทธิภาพการทำงาน จึงมีการเสนอโมดูลที่ใช้คำสั่ง OpenMP และ SIMD AVX2, AVX, AVX512F, NEON หรือ SSE4.1

การปรับปรุงหลัก:

  • ปรับปรุงการจดจำรูปภาพด้วย URL ด้วยการดาวน์โหลดไฟล์โดยใช้ไลบรารี libcurl เมื่อโหลด ส่วนหัว User-Agent จะถูกตั้งค่า เพิ่มพารามิเตอร์ใหม่ curl_cookiefile สำหรับการใช้ไฟล์คุกกี้
  • เซิร์ฟเวอร์ ScrollView ใช้ TCP เป็นโปรโตคอลที่ต้องการ
  • เมื่อใช้คำสั่ง "combine_tessdata -d" เอาต์พุตจะถูกจัดเตรียมให้กับ stdout แทนที่จะเป็น stderr
  • แก้ไขปัญหาการสร้างเมื่อใช้ autoconf และ clang

ที่มา: opennet.ru

เพิ่มความคิดเห็น