Rilis sistem pangenalan teks Tesseract 5.3.4

Rilis sistem pangenalan teks optik Tesseract 5.3.4 wis diterbitake, ndhukung pangenalan karakter lan teks UTF-8 ing luwih saka 100 basa, kalebu Rusia, Kazakh, Belarusia lan Ukrainia. Asil bisa disimpen ing teks biasa utawa ing HTML (hOCR), ALTO (XML), PDF lan format TSV. Sistem kasebut wiwitane digawe ing taun 1985-1995 ing laboratorium Hewlett Packard; ing taun 2005, kode kasebut dibukak miturut lisensi Apache lan dikembangake maneh kanthi partisipasi karyawan Google. Kode sumber proyek kasebut disebarake miturut lisensi Apache 2.0.

Tesseract kalebu sarana console lan perpustakaan libtesseract kanggo nanem fungsi OCR menyang aplikasi liyane. Antarmuka GUI pihak katelu sing ndhukung Tesseract kalebu gImageReader, VietOCR lan YAGF. Rong mesin pangenalan ditawakake: sing klasik sing ngenali teks ing tingkat pola karakter individu, lan sing anyar adhedhasar panggunaan sistem pembelajaran mesin adhedhasar jaringan saraf ambalan LSTM, sing dioptimalake kanggo ngenali kabeh senar lan ngidini a Tambah pinunjul ing akurasi. Model terlatih sing wis siap wis diterbitake kanggo 123 basa. Kanggo ngoptimalake kinerja, modul nggunakake OpenMP lan instruksi SIMD AVX2, AVX, AVX512F, NEON utawa SSE4.1 ditawakake.

dandan utama:

  • Π£Π»ΡƒΡ‡ΡˆΠ΅Π½ΠΎ распознаваниС ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΏΠΎ URL с Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΎΠΉ Ρ„Π°ΠΉΠ»Π° ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ libcurl. ΠŸΡ€ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ обСспСчСно выставлСниС Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠ° User-Agent. Π”ΠΎΠ±Π°Π²Π»Π΅Π½ Π½ΠΎΠ²Ρ‹ΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ curl_cookiefile для использования Ρ„Π°ΠΉΠ»Π° с Cookie.
  • Π’ сСрвСрС ScrollView Π² качСствС ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΡ‚ΠΎΠΊΠΎΠ»Π° задСйствован TCP.
  • ΠŸΡ€ΠΈ использовании ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹ Β«combine_tessdata -dΒ» обСспСчСн Π²Ρ‹Π²ΠΎΠ΄ Π² ΠΏΠΎΡ‚ΠΎΠΊ stdout вмСсто stderr.
  • УстранСны ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ со сборкой ΠΏΡ€ΠΈ использовании autoconf ΠΈ clang.

Source: opennet.ru

Add a comment