การเปิดตัวระบบจดจำข้อความ Tesseract 5.1

ระบบการรู้จำข้อความแบบออปติคอล Tesseract 5.1 ได้รับการเผยแพร่แล้ว โดยรองรับการจดจำอักขระและข้อความ UTF-8 ในกว่า 100 ภาษา รวมถึงภาษารัสเซีย คาซัค เบลารุส และยูเครน ผลลัพธ์สามารถบันทึกเป็นข้อความธรรมดาหรือในรูปแบบ HTML (hOCR), ALTO (XML), PDF และ TSV เดิมระบบถูกสร้างขึ้นในปี 1985-1995 ในห้องปฏิบัติการของ Hewlett Packard และในปี 2005 รหัสดังกล่าวถูกเปิดภายใต้ใบอนุญาต Apache และได้รับการพัฒนาเพิ่มเติมโดยการมีส่วนร่วมของพนักงาน Google ซอร์สโค้ดของโครงการได้รับการเผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0

Tesseract มีคอนโซลยูทิลิตี้และไลบรารี libtesseract สำหรับฝังฟังก์ชัน OCR ลงในแอปพลิเคชันอื่น อินเทอร์เฟซ GUI ของบริษัทอื่นที่รองรับ Tesseract ได้แก่ gImageReader, VietOCR และ YAGF มีการเสนอกลไกการรู้จำสองแบบ: แบบคลาสสิกที่จดจำข้อความในระดับรูปแบบตัวอักษรแต่ละตัว และอันใหม่ที่ใช้ระบบการเรียนรู้ของเครื่องจักรบนโครงข่ายประสาทเทียมที่เกิดซ้ำ LSTM ปรับให้เหมาะสมสำหรับการรับรู้สตริงทั้งหมดและอนุญาตให้ ความแม่นยำเพิ่มขึ้นอย่างมาก โมเดลที่ผ่านการฝึกอบรมสำเร็จรูปได้รับการเผยแพร่ใน 123 ภาษา เพื่อเพิ่มประสิทธิภาพการทำงาน จึงมีการเสนอโมดูลที่ใช้คำสั่ง OpenMP และ SIMD AVX2, AVX, NEON หรือ SSE4.1

การปรับปรุงที่สำคัญใน Tesseract 5.1:

  • ความสามารถในการประมวลผลพื้นที่ที่มีรูปภาพและเส้นเมื่อส่งออกในรูปแบบ ALTO, hOCR และข้อความได้ถูกนำมาใช้แล้ว
  • เพิ่มพารามิเตอร์ใหม่ curl_timeout lkz curl_easy_setop
  • ปรับปรุงระบบการสร้าง
  • ดำเนินการลบโค้ดที่ไม่ได้ใช้แล้ว
  • แก้ไขข้อขัดข้องที่เกิดจากการจัดการตัวชี้ null ที่ไม่ถูกต้องในคลาส PageIterator::Orientation

ที่มา: opennet.ru

เพิ่มความคิดเห็น