การเปิดตัวระบบจดจำข้อความ Tesseract 4.1

เตรียมไว้ การเปิดตัวระบบรู้จำข้อความด้วยแสง เทสเซอร์แรค 4.1รองรับการจดจำอักขระและข้อความ UTF-8 ในกว่า 100 ภาษา รวมถึงภาษารัสเซีย คาซัค เบลารุส และยูเครน ผลลัพธ์สามารถบันทึกเป็นข้อความธรรมดาหรือในรูปแบบ HTML (hOCR), ALTO (XML), PDF และ TSV เดิมระบบถูกสร้างขึ้นในปี 1985-1995 ในห้องปฏิบัติการของ Hewlett Packard และในปี 2005 รหัสดังกล่าวถูกเปิดภายใต้ใบอนุญาต Apache และได้รับการพัฒนาเพิ่มเติมโดยการมีส่วนร่วมของพนักงาน Google แหล่งที่มาของโครงการ การแพร่กระจาย ได้รับอนุญาตภายใต้ Apache 2.0

Tesseract มีคอนโซลยูทิลิตี้และไลบรารี libtesseract สำหรับฝังฟังก์ชัน OCR ลงในแอปพลิเคชันอื่น จากบุคคลที่สามที่สนับสนุน Tesseract อินเทอร์เฟซ GUI คุณสามารถทราบ gImageReader, เวียตโอซีอาร์ и ยาฟ. มีการเสนอกลไกการรู้จำสองแบบ: แบบคลาสสิกที่จดจำข้อความในระดับรูปแบบอักขระแต่ละตัว และอันใหม่ที่ใช้ระบบการเรียนรู้ของเครื่องจักรบนโครงข่ายประสาทเทียมที่เกิดซ้ำ LSTM ปรับให้เหมาะสมสำหรับการรับรู้สตริงทั้งหมดและอนุญาตให้ ความแม่นยำเพิ่มขึ้นอย่างมาก มีการเผยแพร่โมเดลที่ผ่านการฝึกอบรมสำเร็จรูปแล้วสำหรับ 123 ภาษา. เพื่อเพิ่มประสิทธิภาพการทำงาน จึงมีการเสนอโมดูลที่ใช้คำสั่ง OpenMP และ AVX2, AVX หรือ SSE4.1 SIMD

หลัก การปรับปรุง ในเทสเซอร์แรค 4.1:

  • เพิ่มความสามารถในการส่งออกในรูปแบบ XML HIGH (เค้าโครงที่วิเคราะห์และออบเจ็กต์ข้อความ) หากต้องการใช้รูปแบบนี้ คุณควรเรียกใช้แอปพลิเคชันเป็น “tessaract image_name alto output_dir”;
  • เพิ่มโมดูลการเรนเดอร์ใหม่ LSTMBox และ WordStrBox ช่วยลดความซับซ้อนในการฝึกเครื่องยนต์
  • เพิ่มการรองรับ pseudographics ในเอาต์พุต hOCR (HTML)
  • เพิ่มสคริปต์ทางเลือกที่เขียนด้วย Python เพื่อฝึกฝนเครื่องยนต์ตามการเรียนรู้ของเครื่อง
  • ขยายการเพิ่มประสิทธิภาพโดยใช้คำสั่ง AVX, AVX2 และ SSE
  • การสนับสนุน OpenMP ถูกปิดใช้งานโดยค่าเริ่มต้นเนื่องจาก ปัญหา ด้วยผลผลิต
  • เพิ่มการรองรับรายการขาวและดำในเอ็นจิ้น LSTM
  • ปรับปรุงสคริปต์การสร้างตาม Cmake

ที่มา: opennet.ru

เพิ่มความคิดเห็น