Rilis sistem pangenalan teks optik Tesseract 5.3.4 wis diterbitake, ndhukung pangenalan karakter lan teks UTF-8 ing luwih saka 100 basa, kalebu Rusia, Kazakh, Belarusia lan Ukrainia. Asil bisa disimpen ing teks biasa utawa ing HTML (hOCR), ALTO (XML), PDF lan format TSV. Sistem kasebut wiwitane digawe ing taun 1985-1995 ing laboratorium Hewlett Packard; ing taun 2005, kode kasebut dibukak miturut lisensi Apache lan dikembangake maneh kanthi partisipasi karyawan Google. Kode sumber proyek kasebut disebarake miturut lisensi Apache 2.0.
Tesseract kalebu sarana console lan perpustakaan libtesseract kanggo nanem fungsi OCR menyang aplikasi liyane. Antarmuka GUI pihak katelu sing ndhukung Tesseract kalebu gImageReader, VietOCR lan YAGF. Rong mesin pangenalan ditawakake: sing klasik sing ngenali teks ing tingkat pola karakter individu, lan sing anyar adhedhasar panggunaan sistem pembelajaran mesin adhedhasar jaringan saraf ambalan LSTM, sing dioptimalake kanggo ngenali kabeh senar lan ngidini a Tambah pinunjul ing akurasi. Model terlatih sing wis siap wis diterbitake kanggo 123 basa. Kanggo ngoptimalake kinerja, modul nggunakake OpenMP lan instruksi SIMD AVX2, AVX, AVX512F, NEON utawa SSE4.1 ditawakake.
dandan utama:
- Π£Π»ΡΡΡΠ΅Π½ΠΎ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ ΠΏΠΎ URL Ρ Π·Π°Π³ΡΡΠ·ΠΊΠΎΠΉ ΡΠ°ΠΉΠ»Π° ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ libcurl. ΠΡΠΈ Π·Π°Π³ΡΡΠ·ΠΊΠ΅ ΠΎΠ±Π΅ΡΠΏΠ΅ΡΠ΅Π½ΠΎ Π²ΡΡΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠ° User-Agent. ΠΠΎΠ±Π°Π²Π»Π΅Π½ Π½ΠΎΠ²ΡΠΉ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡ curl_cookiefile Π΄Π»Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΡΠ°ΠΉΠ»Π° Ρ Cookie.
- Π ΡΠ΅ΡΠ²Π΅ΡΠ΅ ScrollView Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΠΏΡΠΈΠΎΡΠΈΡΠ΅ΡΠ½ΠΎΠ³ΠΎ ΠΏΡΠΎΡΠΎΠΊΠΎΠ»Π° Π·Π°Π΄Π΅ΠΉΡΡΠ²ΠΎΠ²Π°Π½ TCP.
- ΠΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ ΠΊΠΎΠΌΠ°Π½Π΄Ρ Β«combine_tessdata -dΒ» ΠΎΠ±Π΅ΡΠΏΠ΅ΡΠ΅Π½ Π²ΡΠ²ΠΎΠ΄ Π² ΠΏΠΎΡΠΎΠΊ stdout Π²ΠΌΠ΅ΡΡΠΎ stderr.
- Π£ΡΡΡΠ°Π½Π΅Π½Ρ ΠΏΡΠΎΠ±Π»Π΅ΠΌΡ ΡΠΎ ΡΠ±ΠΎΡΠΊΠΎΠΉ ΠΏΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ autoconf ΠΈ clang.
Source: opennet.ru