Ngaleupaskeun sistem pangakuan téks Tesseract 5.0

Pelepasan sistem pangakuan téks optik Tesseract 4.1 parantos diterbitkeun, ngadukung pangakuan karakter sareng téks UTF-8 dina langkung ti 100 basa, kalebet Rusia, Kazakh, Belarusian sareng Ukrania. Hasilna tiasa disimpen dina téks polos atanapi dina format HTML (hOCR), ALTO (XML), PDF sareng TSV. Sistem ieu mimitina diciptakeun dina 1985-1995 di laboratorium Hewlett Packard; dina taun 2005, kodeu dibuka dina lisénsi Apache sareng dikembangkeun deui kalayan partisipasi karyawan Google. Kodeu sumber proyék disebarkeun dina lisénsi Apache 2.0.

Tesseract ngawengku utilitas konsol jeung perpustakaan libtesseract pikeun embedding fungsionalitas OCR kana aplikasi sejenna. Antarmuka GUI pihak katilu anu ngadukung Tesseract kalebet gImageReader, VietOCR sareng YAGF. Dua mesin pangenalan ditawarkeun: klasik anu ngakuan téks dina tingkat pola karakter individu, sareng anu anyar dumasar kana panggunaan sistem pembelajaran mesin dumasar kana jaringan neural LSTM anu ngulang, dioptimalkeun pikeun ngenalkeun sadayana senar sareng ngamungkinkeun pikeun a kanaékan signifikan dina akurasi. Modél terlatih siap-siap parantos diterbitkeun pikeun 123 basa. Pikeun ngaoptimalkeun kinerja, ditawarkeun modul ngagunakeun OpenMP na SIMD parentah AVX2, AVX, NEON atanapi SSE4.1.

Perbaikan utama dina Tesseract 5.0:

  • Parobihan anu signifikan dina nomer vérsi kusabab parobihan anu dilakukeun kana API anu ngarobih kasaluyuan. Khususna, API libtesseract anu sayogi pikeun umum henteu aya hubunganana sareng jinis data GenericVector sareng STRING proprietary, pikeun milih std :: string sareng std :: vector.
  • Tangkal téks sumber parantos diatur deui. File lulugu umum geus dipindahkeun ka diréktori ngawengku / tesseract.
  • manajemén memori geus redesigned, kabéh malloc na bebas nelepon geus diganti ku C ++ kode. Modernisasi umum kodeu parantos dilaksanakeun.
  • Nambahkeun optimasi pikeun arsitéktur ARM sareng ARM64; Parentah ARM NEON dianggo pikeun nyepetkeun itungan. Optimasi kinerja umum pikeun sadaya arsitéktur parantos dilaksanakeun.
  • Modeu anyar pikeun modél latihan sareng pangakuan téks dumasar kana panggunaan itungan titik ngambang parantos dilaksanakeun. Modeu anyar nawiskeun kinerja anu langkung luhur sareng konsumsi mémori anu langkung handap. Dina mesin LSTM, mode gancang float32 diaktipkeun sacara standar.
  • Transisi parantos dilakukeun pikeun ngagunakeun normalisasi Unicode nganggo formulir NFC (Normalization Form Canonical).
  • Ditambahkeun pilihan pikeun ngonpigurasikeun detailing log (--loglevel).
  • Sistim ngawangun dumasar kana Autotools geus redesigned sarta switched pikeun ngawangun dina modeu non-rekursif.
  • Cabang "master" di Git parantos namina janten "utama".
  • Ditambahkeun dukungan pikeun sékrési anyar macOS sareng sistem Apple dumasar kana chip M1.

    sumber: opennet.ru

Tambahkeun komentar