การเปิดตัวระบบจดจำข้อความ Tesseract 5.2

ระบบการรู้จำข้อความแบบออปติคอล Tesseract 5.2 ได้รับการเผยแพร่แล้ว โดยรองรับการจดจำอักขระและข้อความ UTF-8 ในกว่า 100 ภาษา รวมถึงภาษารัสเซีย คาซัค เบลารุส และยูเครน ผลลัพธ์สามารถบันทึกเป็นข้อความธรรมดาหรือในรูปแบบ HTML (hOCR), ALTO (XML), PDF และ TSV เดิมระบบถูกสร้างขึ้นในปี 1985-1995 ในห้องปฏิบัติการของ Hewlett Packard และในปี 2005 รหัสดังกล่าวถูกเปิดภายใต้ใบอนุญาต Apache และได้รับการพัฒนาเพิ่มเติมโดยการมีส่วนร่วมของพนักงาน Google ซอร์สโค้ดของโครงการได้รับการเผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0

Tesseract มีคอนโซลยูทิลิตี้และไลบรารี libtesseract สำหรับฝังฟังก์ชัน OCR ลงในแอปพลิเคชันอื่น อินเทอร์เฟซ GUI ของบริษัทอื่นที่รองรับ Tesseract ได้แก่ gImageReader, VietOCR และ YAGF มีการเสนอเอ็นจิ้นการรู้จำสองแบบ: แบบคลาสสิกที่จดจำข้อความในระดับรูปแบบตัวอักษรแต่ละตัว และอันใหม่ที่ใช้ระบบการเรียนรู้ของเครื่องจักรบนโครงข่ายประสาทเทียมที่เกิดซ้ำ LSTM ปรับให้เหมาะสมสำหรับการรับรู้สตริงทั้งหมดและอนุญาตให้ ความแม่นยำเพิ่มขึ้นอย่างมาก โมเดลที่ผ่านการฝึกอบรมสำเร็จรูปได้รับการเผยแพร่ใน 123 ภาษา เพื่อเพิ่มประสิทธิภาพการทำงาน จึงมีการเสนอโมดูลที่ใช้คำสั่ง OpenMP และ SIMD AVX2, AVX, AVX512F, NEON หรือ SSE4.1

การปรับปรุงที่สำคัญใน Tesseract 5.2:

  • เพิ่มการเพิ่มประสิทธิภาพที่ดำเนินการโดยใช้คำสั่ง Intel AVX512F
  • C API ใช้ฟังก์ชันเพื่อเริ่มต้น tesseract ด้วยการโหลดโมเดลการเรียนรู้ของเครื่องจากหน่วยความจำ
  • เพิ่มพารามิเตอร์ invert_threshold ซึ่งกำหนดระดับการผกผันของสตริงข้อความ ค่าเริ่มต้นคือ 0.7 หากต้องการปิดใช้งานการกลับด้าน ให้ตั้งค่าเป็น 0
  • ปรับปรุงการประมวลผลเอกสารขนาดใหญ่มากบนโฮสต์ 32 บิต
  • มีการเปลี่ยนจากการใช้ฟังก์ชัน std::regex เป็น std::string
  • ปรับปรุงสคริปต์การสร้างสำหรับ Autotools, CMake และระบบบูรณาการอย่างต่อเนื่อง

    ที่มา: opennet.ru

เพิ่มความคิดเห็น