Rilis sistem pangenalan teks Tesseract 5.0

Rilis sistem pangenalan teks optik Tesseract 4.1 wis diterbitake, ndhukung pangenalan karakter lan teks UTF-8 ing luwih saka 100 basa, kalebu Rusia, Kazakh, Belarusia lan Ukrainia. Asil bisa disimpen ing teks biasa utawa ing HTML (hOCR), ALTO (XML), PDF lan format TSV. Sistem kasebut wiwitane digawe ing taun 1985-1995 ing laboratorium Hewlett Packard; ing taun 2005, kode kasebut dibukak miturut lisensi Apache lan dikembangake maneh kanthi partisipasi karyawan Google. Kode sumber proyek kasebut disebarake miturut lisensi Apache 2.0.

Tesseract kalebu sarana console lan perpustakaan libtesseract kanggo nanem fungsi OCR menyang aplikasi liyane. Antarmuka GUI pihak katelu sing ndhukung Tesseract kalebu gImageReader, VietOCR lan YAGF. Rong mesin pangenalan ditawakake: sing klasik sing ngenali teks ing tingkat pola karakter individu, lan sing anyar adhedhasar panggunaan sistem pembelajaran mesin adhedhasar jaringan saraf ambalan LSTM, sing dioptimalake kanggo ngenali kabeh senar lan ngidini a Tambah pinunjul ing akurasi. Model terlatih sing wis siap wis diterbitake kanggo 123 basa. Kanggo ngoptimalake kinerja, modul nggunakake OpenMP lan instruksi SIMD AVX2, AVX, NEON utawa SSE4.1 ditawakake.

Dandan utama ing Tesseract 5.0:

  • Owah-owahan signifikan ing nomer versi amarga owah-owahan sing digawe kanggo API sing break kompatibilitas. Khususe, API libtesseract sing kasedhiya kanggo umum ora ana maneh disambungake karo jinis data GenericVector lan STRING sing eksklusif, kanthi milih std :: string lan std :: vector.
  • Wit teks sumber wis diatur maneh. File header umum wis dipindhah menyang direktori kalebu / tesseract.
  • Manajemen memori wis redesigned, kabeh malloc lan free telpon wis diganti karo kode C ++. Modernisasi umum kode wis ditindakake.
  • Nambahake optimasi kanggo arsitektur ARM lan ARM64; instruksi ARM NEON digunakake kanggo nyepetake petungan. Optimasi kinerja sing umum kanggo kabeh arsitektur wis ditindakake.
  • Mode anyar kanggo model latihan lan pangenalan teks adhedhasar panggunaan petungan titik ngambang wis dileksanakake. Mode anyar nawakake kinerja sing luwih dhuwur lan konsumsi memori sing luwih murah. Ing mesin LSTM, mode cepet float32 diaktifake kanthi gawan.
  • Transisi wis digawe kanggo nggunakake normalisasi Unicode nggunakake formulir NFC (Normalization Form Canonical).
  • Nambahake pilihan kanggo ngatur rincian log (--loglevel).
  • Sistem mbangun adhedhasar Autotools wis dirancang maneh lan diuripake kanggo mbangun ing mode non-rekursif.
  • Cabang "master" ing Git wis diganti jeneng dadi "utama".
  • Nambahake dhukungan kanggo rilis anyar sistem macOS lan Apple adhedhasar chip M1.

    Source: opennet.ru

Add a comment