Phát hành hệ thống nhận dạng văn bản Tesseract 5.3.4

Việc phát hành hệ thống nhận dạng văn bản quang học Tesseract 5.3.4 đã được xuất bản, hỗ trợ nhận dạng các ký tự và văn bản UTF-8 bằng hơn 100 ngôn ngữ, bao gồm tiếng Nga, tiếng Kazakhstan, tiếng Belarus và tiếng Ukraina. Kết quả có thể được lưu ở dạng văn bản thuần túy hoặc ở định dạng HTML (hOCR), ALTO (XML), PDF và TSV. Hệ thống ban đầu được tạo ra vào năm 1985-1995 trong phòng thí nghiệm Hewlett Packard; năm 2005, mã được mở theo giấy phép Apache và được phát triển thêm với sự tham gia của nhân viên Google. Mã nguồn của dự án được phân phối theo giấy phép Apache 2.0.

Tesseract bao gồm tiện ích bảng điều khiển và thư viện libtesseract để nhúng chức năng OCR vào các ứng dụng khác. Giao diện GUI của bên thứ ba hỗ trợ Tesseract bao gồm gImageReader, VietOCR và YAGF. Hai công cụ nhận dạng được cung cấp: một công cụ cổ điển nhận dạng văn bản ở cấp độ mẫu ký tự riêng lẻ và một công cụ mới dựa trên việc sử dụng hệ thống máy học dựa trên mạng thần kinh tái phát LSTM, được tối ưu hóa để nhận dạng toàn bộ chuỗi và cho phép tăng đáng kể độ chính xác. Các mô hình được đào tạo sẵn đã được xuất bản cho 123 ngôn ngữ. Để tối ưu hóa hiệu suất, các mô-đun sử dụng hướng dẫn OpenMP và SIMD AVX2, AVX, AVX512F, NEON hoặc SSE4.1 được cung cấp.

Cải tiến chính:

  • Cải thiện khả năng nhận dạng hình ảnh theo URL khi tải xuống tệp bằng thư viện libcurl. Khi tải, tiêu đề Tác nhân người dùng được đặt. Đã thêm tham số mới Curl_cookiefile để sử dụng tệp cookie.
  • Máy chủ ScrollView sử dụng TCP làm giao thức ưa thích.
  • Khi sử dụng lệnh "combine_tessdata -d", đầu ra được cung cấp cho thiết bị xuất chuẩn thay vì thiết bị xuất chuẩn.
  • Đã khắc phục sự cố xây dựng khi sử dụng autoconf và clang.

Nguồn: opennet.ru

Thêm một lời nhận xét