การเปิดตัวระบบจดจำข้อความ Tesseract 5.0

ระบบการรู้จำข้อความแบบออปติคอล Tesseract 4.1 ได้รับการเผยแพร่แล้ว โดยรองรับการจดจำอักขระและข้อความ UTF-8 ในกว่า 100 ภาษา รวมถึงภาษารัสเซีย คาซัค เบลารุส และยูเครน ผลลัพธ์สามารถบันทึกเป็นข้อความธรรมดาหรือในรูปแบบ HTML (hOCR), ALTO (XML), PDF และ TSV เดิมระบบถูกสร้างขึ้นในปี 1985-1995 ในห้องปฏิบัติการของ Hewlett Packard และในปี 2005 รหัสดังกล่าวถูกเปิดภายใต้ใบอนุญาต Apache และได้รับการพัฒนาเพิ่มเติมโดยการมีส่วนร่วมของพนักงาน Google ซอร์สโค้ดของโครงการได้รับการเผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0

Tesseract มีคอนโซลยูทิลิตี้และไลบรารี libtesseract สำหรับฝังฟังก์ชัน OCR ลงในแอปพลิเคชันอื่น อินเทอร์เฟซ GUI ของบริษัทอื่นที่รองรับ Tesseract ได้แก่ gImageReader, VietOCR และ YAGF มีการเสนอกลไกการรู้จำสองแบบ: แบบคลาสสิกที่จดจำข้อความในระดับรูปแบบตัวอักษรแต่ละตัว และอันใหม่ที่ใช้ระบบการเรียนรู้ของเครื่องจักรบนโครงข่ายประสาทเทียมที่เกิดซ้ำ LSTM ปรับให้เหมาะสมสำหรับการรับรู้สตริงทั้งหมดและอนุญาตให้ ความแม่นยำเพิ่มขึ้นอย่างมาก โมเดลที่ผ่านการฝึกอบรมสำเร็จรูปได้รับการเผยแพร่ใน 123 ภาษา เพื่อเพิ่มประสิทธิภาพการทำงาน จึงมีการเสนอโมดูลที่ใช้คำสั่ง OpenMP และ SIMD AVX2, AVX, NEON หรือ SSE4.1

การปรับปรุงที่สำคัญใน Tesseract 5.0:

  • การเปลี่ยนแปลงที่สำคัญในหมายเลขเวอร์ชันเกิดจากการเปลี่ยนแปลงที่ทำกับ API ที่ทำให้ความเข้ากันได้ลดลง โดยเฉพาะอย่างยิ่ง libtesseract API ที่เผยแพร่ต่อสาธารณะจะไม่เชื่อมโยงกับประเภทข้อมูล GenericVector และ STRING ที่เป็นกรรมสิทธิ์อีกต่อไป โดยหันไปใช้ std::string และ std::vector
  • โครงสร้างข้อความต้นฉบับได้รับการจัดระเบียบใหม่ ไฟล์ส่วนหัวสาธารณะถูกย้ายไปยังไดเร็กทอรี include/tesseract
  • การจัดการหน่วยความจำได้รับการออกแบบใหม่ การโทร malloc และการโทรฟรีทั้งหมดถูกแทนที่ด้วยรหัส C++ มีการปรับปรุงโค้ดโดยทั่วไปให้ทันสมัยขึ้น
  • เพิ่มการเพิ่มประสิทธิภาพสำหรับสถาปัตยกรรม ARM และ ARM64 คำสั่ง ARM NEON ใช้เพื่อเร่งความเร็วในการคำนวณ มีการดำเนินการเพิ่มประสิทธิภาพการทำงานทั่วไปสำหรับสถาปัตยกรรมทั้งหมดแล้ว
  • มีการนำโหมดใหม่สำหรับโมเดลการฝึกและการจดจำข้อความตามการใช้การคำนวณจุดลอยตัวมาใช้ โหมดใหม่ให้ประสิทธิภาพที่สูงขึ้นและลดการใช้หน่วยความจำ ในเอ็นจิ้น LSTM โหมดเร็ว float32 จะถูกเปิดใช้งานตามค่าเริ่มต้น
  • มีการเปลี่ยนแปลงไปใช้การทำให้เป็นมาตรฐานของ Unicode โดยใช้แบบฟอร์ม NFC (Normalization Form Canonical)
  • เพิ่มตัวเลือกในการกำหนดค่ารายละเอียดบันทึก (--loglevel)
  • ระบบการสร้างที่ใช้ Autotools ได้รับการออกแบบใหม่และเปลี่ยนไปใช้การสร้างในโหมดไม่เรียกซ้ำ
  • สาขา "master" ใน Git ถูกเปลี่ยนชื่อเป็น "main"
  • เพิ่มการรองรับสำหรับระบบ macOS และ Apple รุ่นใหม่ที่ใช้ชิป M1

    ที่มา: opennet.ru

เพิ่มความคิดเห็น