Phát hành hệ thống nhận dạng văn bản Tesseract 5.1

Việc phát hành hệ thống nhận dạng văn bản quang học Tesseract 5.1 đã được xuất bản, hỗ trợ nhận dạng các ký tự và văn bản UTF-8 bằng hơn 100 ngôn ngữ, bao gồm tiếng Nga, tiếng Kazakhstan, tiếng Belarus và tiếng Ukraina. Kết quả có thể được lưu ở dạng văn bản thuần túy hoặc ở định dạng HTML (hOCR), ALTO (XML), PDF và TSV. Hệ thống ban đầu được tạo ra vào năm 1985-1995 trong phòng thí nghiệm Hewlett Packard; năm 2005, mã được mở theo giấy phép Apache và được phát triển thêm với sự tham gia của nhân viên Google. Mã nguồn của dự án được phân phối theo giấy phép Apache 2.0.

Tesseract bao gồm tiện ích bảng điều khiển và thư viện libtesseract để nhúng chức năng OCR vào các ứng dụng khác. Giao diện GUI của bên thứ ba hỗ trợ Tesseract bao gồm gImageReader, VietOCR và YAGF. Hai công cụ nhận dạng được cung cấp: một công cụ cổ điển nhận dạng văn bản ở cấp độ mẫu ký tự riêng lẻ và một công cụ mới dựa trên việc sử dụng hệ thống máy học dựa trên mạng thần kinh tái phát LSTM, được tối ưu hóa để nhận dạng toàn bộ chuỗi và cho phép tăng đáng kể độ chính xác. Các mô hình được đào tạo sẵn đã được xuất bản cho 123 ngôn ngữ. Để tối ưu hóa hiệu suất, các mô-đun sử dụng hướng dẫn OpenMP và SIMD AVX2, AVX, NEON hoặc SSE4.1 được cung cấp.

Những cải tiến chính trong Tesseract 5.1:

  • Khả năng xử lý các vùng có hình ảnh và đường kẻ khi xuất ra ở định dạng ALTO, hOCR và văn bản đã được triển khai.
  • Đã thêm tham số mới Curl_timeout lkz Curl_easy_setop.
  • Cải thiện hệ thống xây dựng.
  • Công việc đã được thực hiện để loại bỏ mã không sử dụng
  • Đã khắc phục sự cố do xử lý không chính xác các con trỏ null trong lớp PageIterator::Orientation.

Nguồn: opennet.ru

Thêm một lời nhận xét