Rilis sistem pangenalan teks Tesseract 5.2

Rilis sistem pangenalan teks optik Tesseract 5.2 wis diterbitake, ndhukung pangenalan karakter lan teks UTF-8 ing luwih saka 100 basa, kalebu Rusia, Kazakh, Belarusia lan Ukrainia. Asil bisa disimpen ing teks biasa utawa ing HTML (hOCR), ALTO (XML), PDF lan format TSV. Sistem kasebut wiwitane digawe ing taun 1985-1995 ing laboratorium Hewlett Packard; ing taun 2005, kode kasebut dibukak miturut lisensi Apache lan dikembangake maneh kanthi partisipasi karyawan Google. Kode sumber proyek kasebut disebarake miturut lisensi Apache 2.0.

Tesseract kalebu sarana console lan perpustakaan libtesseract kanggo nanem fungsi OCR menyang aplikasi liyane. Antarmuka GUI pihak katelu sing ndhukung Tesseract kalebu gImageReader, VietOCR lan YAGF. Rong mesin pangenalan ditawakake: sing klasik sing ngenali teks ing tingkat pola karakter individu, lan sing anyar adhedhasar panggunaan sistem pembelajaran mesin adhedhasar jaringan saraf ambalan LSTM, sing dioptimalake kanggo ngenali kabeh senar lan ngidini a Tambah pinunjul ing akurasi. Model terlatih sing wis siap wis diterbitake kanggo 123 basa. Kanggo ngoptimalake kinerja, modul nggunakake OpenMP lan instruksi SIMD AVX2, AVX, AVX512F, NEON utawa SSE4.1 ditawakake.

Dandan utama ing Tesseract 5.2:

  • Optimizations ditambahakΓ© dileksanakake nggunakake instruksi Intel AVX512F.
  • API C ngetrapake fungsi kanggo miwiti tesseract kanthi ngemot model pembelajaran mesin saka memori.
  • Nambahake parameter invert_threshold, sing nemtokake tingkat inversi string teks. Nilai standar yaiku 0.7. Kanggo mateni inversi, setel nilai dadi 0.
  • Ngapikake pangolahan dokumen sing gedhe banget ing host 32-bit.
  • Transisi wis digawe saka nggunakake std :: fungsi regex kanggo std :: string.
  • Skrip mbangun sing luwih apik kanggo Autotools, CMake lan sistem integrasi sing terus-terusan.

    Source: opennet.ru

Add a comment