เตรียมไว้ การเปิดตัวระบบรู้จำข้อความด้วยแสง เทสเซอร์แรค 4.1 รองรับการจดจำอักขระและข้อความ UTF-8 ในกว่า 100 ภาษา รวมถึงภาษารัสเซีย คาซัค เบลารุส และยูเครน ผลลัพธ์สามารถบันทึกเป็นข้อความธรรมดาหรือในรูปแบบ HTML (hOCR), ALTO (XML), PDF และ TSV เดิมระบบถูกสร้างขึ้นในปี 1985-1995 ในห้องปฏิบัติการของ Hewlett Packard และในปี 2005 รหัสดังกล่าวถูกเปิดภายใต้ใบอนุญาต Apache และได้รับการพัฒนาเพิ่มเติมโดยการมีส่วนร่วมของพนักงาน Google แหล่งที่มาของโครงการ การแพร่กระจาย ได้รับอนุญาตภายใต้ Apache 2.0
Tesseract มีคอนโซลยูทิลิตี้และไลบรารี libtesseract สำหรับฝังฟังก์ชัน OCR ลงในแอปพลิเคชันอื่น จากบุคคลที่สามที่สนับสนุน Tesseract อินเทอร์เฟซ GUI คุณสามารถทราบ gImageReader , เวียตโอซีอาร์ и ยาฟ . มีการเสนอกลไกการรู้จำสองแบบ: แบบคลาสสิกที่จดจำข้อความในระดับรูปแบบอักขระแต่ละตัว และอันใหม่ที่ใช้ระบบการเรียนรู้ของเครื่องจักรบนโครงข่ายประสาทเทียมที่เกิดซ้ำ LSTM ปรับให้เหมาะสมสำหรับการรับรู้สตริงทั้งหมดและอนุญาตให้ ความแม่นยำเพิ่มขึ้นอย่างมาก มีการเผยแพร่โมเดลที่ผ่านการฝึกอบรมสำเร็จรูปแล้วสำหรับ 123 ภาษา . เพื่อเพิ่มประสิทธิภาพการทำงาน จึงมีการเสนอโมดูลที่ใช้คำสั่ง OpenMP และ AVX2, AVX หรือ SSE4.1 SIMD
หลัก การปรับปรุง ในเทสเซอร์แรค 4.1:
เพิ่มความสามารถในการส่งออกในรูปแบบ XML HIGH (เค้าโครงที่วิเคราะห์และออบเจ็กต์ข้อความ) หากต้องการใช้รูปแบบนี้ คุณควรเรียกใช้แอปพลิเคชันเป็น “tessaract image_name alto output_dir”;
เพิ่มโมดูลการเรนเดอร์ใหม่ LSTMBox และ WordStrBox ช่วยลดความซับซ้อนในการฝึกเครื่องยนต์
เพิ่มการรองรับ pseudographics ในเอาต์พุต hOCR (HTML)
เพิ่มสคริปต์ทางเลือกที่เขียนด้วย Python เพื่อฝึกฝนเครื่องยนต์ตามการเรียนรู้ของเครื่อง
ขยายการเพิ่มประสิทธิภาพโดยใช้คำสั่ง AVX, AVX2 และ SSE
การสนับสนุน OpenMP ถูกปิดใช้งานโดยค่าเริ่มต้นเนื่องจาก ปัญหา ด้วยผลผลิต
เพิ่มการรองรับรายการขาวและดำในเอ็นจิ้น LSTM
ปรับปรุงสคริปต์การสร้างตาม Cmake
ที่มา: opennet.ru