Phát hành hệ thống nhận dạng văn bản Tesseract 4.1

Chuẩn bị Ra mắt hệ thống nhận dạng văn bản quang học Tesseract 4.1, hỗ trợ nhận dạng các ký tự và văn bản UTF-8 bằng hơn 100 ngôn ngữ, bao gồm tiếng Nga, tiếng Kazakhstan, tiếng Belarus và tiếng Ukraina. Kết quả có thể được lưu ở dạng văn bản thuần túy hoặc ở định dạng HTML (hOCR), ALTO (XML), PDF và TSV. Hệ thống ban đầu được tạo ra vào năm 1985-1995 trong phòng thí nghiệm Hewlett Packard; năm 2005, mã được mở theo giấy phép Apache và được phát triển thêm với sự tham gia của nhân viên Google. Nguồn dự án lây lan được cấp phép theo Apache 2.0.

Tesseract bao gồm tiện ích bảng điều khiển và thư viện libtesseract để nhúng chức năng OCR vào các ứng dụng khác. Từ các bên thứ ba hỗ trợ Tesseract Giao diện GUI bạn có thể lưu ý gImageReader, VietOCR и YAGF. Hai công cụ nhận dạng được cung cấp: một công cụ cổ điển nhận dạng văn bản ở cấp độ mẫu ký tự riêng lẻ và một công cụ mới dựa trên việc sử dụng hệ thống máy học dựa trên mạng thần kinh tái phát LSTM, được tối ưu hóa để nhận dạng toàn bộ chuỗi và cho phép tăng đáng kể độ chính xác. Các mô hình được đào tạo sẵn sàng được xuất bản cho 123 ngôn ngữ. Để tối ưu hóa hiệu suất, các mô-đun sử dụng hướng dẫn SIMD OpenMP và AVX2, AVX hoặc SSE4.1 được cung cấp.

Chính cải tiến trong Tesseract 4.1:

  • Đã thêm khả năng xuất ở định dạng XML CAO (Bố cục và đối tượng văn bản được phân tích). Để sử dụng định dạng này, bạn nên chạy ứng dụng với tên “tessaract image_name alto out_dir”;
  • Đã thêm các mô-đun kết xuất mới LSTMBox và WordStrBox, đơn giản hóa việc đào tạo công cụ;
  • Đã thêm hỗ trợ cho đồ họa giả trong đầu ra hOCR (HTML);
  • Đã thêm các tập lệnh thay thế được viết bằng Python để đào tạo công cụ dựa trên học máy;
  • Tối ưu hóa mở rộng bằng cách sử dụng hướng dẫn AVX, AVX2 và SSE;
  • Hỗ trợ OpenMP bị tắt theo mặc định do vấn đề với năng suất;
  • Đã thêm hỗ trợ cho danh sách trắng và đen trong công cụ LSTM;
  • Tập lệnh xây dựng được cải tiến dựa trên Cmake.

Nguồn: opennet.ru

Thêm một lời nhận xét