Phát hành hệ thống nhận dạng văn bản Tesseract 5.0

Việc phát hành hệ thống nhận dạng văn bản quang học Tesseract 4.1 đã được xuất bản, hỗ trợ nhận dạng các ký tự và văn bản UTF-8 bằng hơn 100 ngôn ngữ, bao gồm tiếng Nga, tiếng Kazakhstan, tiếng Belarus và tiếng Ukraina. Kết quả có thể được lưu ở dạng văn bản thuần túy hoặc ở định dạng HTML (hOCR), ALTO (XML), PDF và TSV. Hệ thống ban đầu được tạo ra vào năm 1985-1995 trong phòng thí nghiệm Hewlett Packard; năm 2005, mã được mở theo giấy phép Apache và được phát triển thêm với sự tham gia của nhân viên Google. Mã nguồn của dự án được phân phối theo giấy phép Apache 2.0.

Tesseract bao gồm tiện ích bảng điều khiển và thư viện libtesseract để nhúng chức năng OCR vào các ứng dụng khác. Giao diện GUI của bên thứ ba hỗ trợ Tesseract bao gồm gImageReader, VietOCR và YAGF. Hai công cụ nhận dạng được cung cấp: một công cụ cổ điển nhận dạng văn bản ở cấp độ mẫu ký tự riêng lẻ và một công cụ mới dựa trên việc sử dụng hệ thống máy học dựa trên mạng thần kinh tái phát LSTM, được tối ưu hóa để nhận dạng toàn bộ chuỗi và cho phép tăng đáng kể độ chính xác. Các mô hình được đào tạo sẵn đã được xuất bản cho 123 ngôn ngữ. Để tối ưu hóa hiệu suất, các mô-đun sử dụng hướng dẫn OpenMP và SIMD AVX2, AVX, NEON hoặc SSE4.1 được cung cấp.

Những cải tiến chính trong Tesseract 5.0:

  • Sự thay đổi đáng kể về số phiên bản là do những thay đổi được thực hiện đối với API làm mất tính tương thích. Đặc biệt, API libtesseract có sẵn công khai không còn bị ràng buộc với các kiểu dữ liệu GenericVector và STRING độc quyền nữa mà thay vào đó là std::string và std::vector.
  • Cây văn bản nguồn đã được tổ chức lại. Các tệp tiêu đề công khai đã được chuyển đến thư mục include/tesseract.
  • Quản lý bộ nhớ đã được thiết kế lại, tất cả các cuộc gọi malloc và miễn phí đã được thay thế bằng mã C++. Việc hiện đại hóa chung của mã đã được thực hiện.
  • Đã thêm các tối ưu hóa cho kiến ​​trúc ARM và ARM64; Hướng dẫn ARM NEON được sử dụng để tăng tốc độ tính toán. Tối ưu hóa hiệu suất chung cho tất cả các kiến ​​trúc đã được thực hiện.
  • Các chế độ mới cho mô hình đào tạo và nhận dạng văn bản dựa trên việc sử dụng phép tính dấu phẩy động đã được triển khai. Các chế độ mới mang lại hiệu suất cao hơn và tiêu thụ bộ nhớ thấp hơn. Trong công cụ LSTM, chế độ nhanh float32 được bật theo mặc định.
  • Quá trình chuyển đổi đã được thực hiện sang sử dụng chuẩn hóa Unicode bằng cách sử dụng biểu mẫu NFC (Mẫu chuẩn hóa chuẩn hóa).
  • Đã thêm tùy chọn để định cấu hình chi tiết nhật ký (--loglevel).
  • Hệ thống xây dựng dựa trên Autotools đã được thiết kế lại và chuyển sang xây dựng ở chế độ không đệ quy.
  • Nhánh "chính" trong Git đã được đổi tên thành "chính".
  • Đã thêm hỗ trợ cho các bản phát hành mới của hệ thống macOS và Apple dựa trên chip M1.

    Nguồn: opennet.ru

Thêm một lời nhận xét