Phát hành hệ thống nhận dạng văn bản Tesseract 5.2

Việc phát hành hệ thống nhận dạng văn bản quang học Tesseract 5.2 đã được xuất bản, hỗ trợ nhận dạng các ký tự và văn bản UTF-8 bằng hơn 100 ngôn ngữ, bao gồm tiếng Nga, tiếng Kazakhstan, tiếng Belarus và tiếng Ukraina. Kết quả có thể được lưu ở dạng văn bản thuần túy hoặc ở định dạng HTML (hOCR), ALTO (XML), PDF và TSV. Hệ thống ban đầu được tạo ra vào năm 1985-1995 trong phòng thí nghiệm Hewlett Packard; năm 2005, mã được mở theo giấy phép Apache và được phát triển thêm với sự tham gia của nhân viên Google. Mã nguồn của dự án được phân phối theo giấy phép Apache 2.0.

Tesseract bao gồm tiện ích bảng điều khiển và thư viện libtesseract để nhúng chức năng OCR vào các ứng dụng khác. Giao diện GUI của bên thứ ba hỗ trợ Tesseract bao gồm gImageReader, VietOCR và YAGF. Hai công cụ nhận dạng được cung cấp: một công cụ cổ điển nhận dạng văn bản ở cấp độ mẫu ký tự riêng lẻ và một công cụ mới dựa trên việc sử dụng hệ thống máy học dựa trên mạng thần kinh tái phát LSTM, được tối ưu hóa để nhận dạng toàn bộ chuỗi và cho phép tăng đáng kể độ chính xác. Các mô hình được đào tạo sẵn đã được xuất bản cho 123 ngôn ngữ. Để tối ưu hóa hiệu suất, các mô-đun sử dụng hướng dẫn OpenMP và SIMD AVX2, AVX, AVX512F, NEON hoặc SSE4.1 được cung cấp.

Những cải tiến chính trong Tesseract 5.2:

  • Đã thêm các tối ưu hóa được triển khai bằng hướng dẫn Intel AVX512F.
  • API C triển khai chức năng khởi tạo tesseract bằng cách tải mô hình học máy từ bộ nhớ.
  • Đã thêm tham số invert_threshold, xác định mức độ đảo ngược của chuỗi văn bản. Giá trị mặc định là 0.7. Để tắt tính năng đảo ngược, hãy đặt giá trị thành 0.
  • Cải thiện việc xử lý các tài liệu rất lớn trên máy chủ 32-bit.
  • Quá trình chuyển đổi đã được thực hiện từ việc sử dụng các hàm std::regex sang std::string.
  • Các tập lệnh xây dựng được cải tiến cho Autotools, CMake và các hệ thống tích hợp liên tục.

    Nguồn: opennet.ru

Thêm một lời nhận xét