Rilis sistem pangenalan teks Tesseract 5.1

Rilis sistem pangenalan teks optik Tesseract 5.1 wis diterbitake, ndhukung pangenalan karakter lan teks UTF-8 ing luwih saka 100 basa, kalebu Rusia, Kazakh, Belarusia lan Ukrainia. Asil bisa disimpen ing teks biasa utawa ing HTML (hOCR), ALTO (XML), PDF lan format TSV. Sistem kasebut wiwitane digawe ing taun 1985-1995 ing laboratorium Hewlett Packard; ing taun 2005, kode kasebut dibukak miturut lisensi Apache lan dikembangake maneh kanthi partisipasi karyawan Google. Kode sumber proyek kasebut disebarake miturut lisensi Apache 2.0.

Tesseract kalebu sarana console lan perpustakaan libtesseract kanggo nanem fungsi OCR menyang aplikasi liyane. Antarmuka GUI pihak katelu sing ndhukung Tesseract kalebu gImageReader, VietOCR lan YAGF. Rong mesin pangenalan ditawakake: sing klasik sing ngenali teks ing tingkat pola karakter individu, lan sing anyar adhedhasar panggunaan sistem pembelajaran mesin adhedhasar jaringan saraf ambalan LSTM, sing dioptimalake kanggo ngenali kabeh senar lan ngidini a Tambah pinunjul ing akurasi. Model terlatih sing wis siap wis diterbitake kanggo 123 basa. Kanggo ngoptimalake kinerja, modul nggunakake OpenMP lan instruksi SIMD AVX2, AVX, NEON utawa SSE4.1 ditawakake.

Dandan utama ing Tesseract 5.1:

  • Kemampuan kanggo ngolah wilayah kanthi gambar lan garis nalika output ing format ALTO, hOCR lan teks wis dileksanakake.
  • Ditambahake parameter anyar curl_timeout lkz curl_easy_setop.
  • Sistem mbangun sing luwih apik.
  • Pakaryan wis rampung kanggo mbusak kode sing ora digunakake
  • Ndandani kacilakan sing disebabake dening salah nangani null pointer ing PageIterator:: kelas Orientasi.

Source: opennet.ru

Add a comment