Ukukhutshwa kwenkqubo ye-Tesseract 4.1 ye-optical text recognition system iye yapapashwa, ixhasa ukuqatshelwa kweempawu ze-UTF-8 kunye nemibhalo kwiilwimi ezingaphezu kwe-100, kuquka isiRashiya, isiKazakh, isiBelarusian kunye ne-Ukraine. Isiphumo sinokugcinwa kwisicatshulwa esicacileyo okanye kwi-HTML (hOCR), ALTO (XML), PDF kunye neefomathi ze-TSV. Inkqubo yaqala ngo-1985-1995 kwibhubhoratri ye-Hewlett Packard; kwi-2005, ikhowudi yavulwa phantsi kwelayisensi ye-Apache kwaye yaphuhliswa ngakumbi ngokuthatha inxaxheba kwabasebenzi bakaGoogle. Ikhowudi yomthombo weprojekthi ihanjiswa phantsi kwelayisensi ye-Apache 2.0.
I-Tesseract ibandakanya into eluncedo ye-console kunye nethala leencwadi le-libtesseract lokuzinzisa ukusebenza kwe-OCR kwezinye izicelo. Ujongano lweqela lesithathu lwe-GUI oluxhasa iTesseract lubandakanya i-gImageReader, iVietOCR kunye neYAGF. Iinjini ezimbini zokuqaphela zinikezelwa: enye yeklasikhi eqaphela isicatshulwa kwinqanaba leepateni zomlinganiswa ngamnye, kunye nentsha esekelwe ekusebenziseni inkqubo yokufunda ngomatshini esekelwe kwinethiwekhi ye-neural ye-LSTM ephindaphindiweyo, elungiselelwe ukuqaphela iintambo ezipheleleyo kunye nokuvumela ukuba ukwanda okubalulekileyo kokuchaneka. Imifuziselo esele yenziwe sele ipapashiwe ngeelwimi ezili-123. Ukwandisa ukusebenza, iimodyuli ezisebenzisa i-OpenMP kunye nemiyalelo ye-SIMD i-AVX2, i-AVX, i-NEON okanye i-SSE4.1 inikezelwa.
Uphuculo olukhulu kwiTesseract 5.0:
- ΠΠ½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π½ΠΎΠΌΠ΅ΡΠ° Π²Π΅ΡΡΠΈΠΈ ΡΠ²ΡΠ·Π°Π½ΠΎ Ρ Π²Π½Π΅ΡΠ΅Π½ΠΈΠ΅ΠΌ Π² API ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ, Π½Π°ΡΡΡΠ°ΡΡΠΈΡ ΡΠΎΠ²ΠΌΠ΅ΡΡΠΈΠΌΠΎΡΡΡ. Π ΡΠ°ΡΡΠ½ΠΎΡΡΠΈ, ΠΏΡΠ±Π»ΠΈΡΠ½ΠΎ Π΄ΠΎΡΡΡΠΏΠ½ΡΠΉ API libtesseract Π±ΠΎΠ»ΡΡΠ΅ Π½Π΅ ΠΏΡΠΈΠ²ΡΠ·Π°Π½ ΠΊ ΠΏΡΠΎΠΏΡΠΈΠ΅ΡΠ°ΡΠ½ΡΠΌ ΡΠΈΠΏΠ°ΠΌ Π΄Π°Π½Π½ΡΡ GenericVector ΠΈ STRING, Π²ΠΌΠ΅ΡΡΠΎ ΠΊΠΎΡΠΎΡΡΡ Π² ΠΊΠΎΠ΄Π΅ Π·Π°Π΄Π΅ΠΉΡΡΠ²ΠΎΠ²Π°Π½Ρ std::string ΠΈ std::vector.
- ΠΡΠΎΠ²Π΅Π΄Π΅Π½Π° ΡΠ΅ΠΎΡΠ³Π°Π½ΠΈΠ·Π°ΡΠΈΡ Π΄Π΅ΡΠ΅Π²Π° ΠΈΡΡ ΠΎΠ΄Π½ΡΡ ΡΠ΅ΠΊΡΡΠΎΠ². ΠΡΠ±Π»ΠΈΡΠ½ΡΠ΅ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΎΡΠ½ΡΠ΅ ΡΠ°ΠΉΠ»Ρ ΠΏΠ΅ΡΠ΅ΠΌΠ΅ΡΠ΅Π½Ρ Π² ΠΊΠ°ΡΠ°Π»ΠΎΠ³ include/tesseract.
- ΠΠ΅ΡΠ΅ΡΠ°Π±ΠΎΡΠ°Π½ΠΎ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡΡΡ, Π²ΡΠ΅ Π²ΡΠ·ΠΎΠ²Ρ malloc ΠΈ free Π·Π°ΠΌΠ΅Π½Π΅Π½Ρ Π½Π° ΠΊΠΎΠ΄ C++. ΠΡΠΎΠ²Π΅Π΄Π΅Π½Π° ΠΎΠ±ΡΠ°Ρ ΠΌΠΎΠ΄Π΅ΡΠ½ΠΈΠ·Π°ΡΠΈΡ ΠΊΠΎΠ΄Π°.
- ΠΠΎΠ±Π°Π²Π»Π΅Π½Ρ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΈ Π΄Π»Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡ ARM ΠΈ ARM64, Π΄Π»Ρ ΡΡΠΊΠΎΡΠ΅Π½ΠΈΡ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΠΉ Π·Π°Π΄Π΅ΠΉΡΡΠ²ΠΎΠ²Π°Π½Ρ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΈ ARM NEON. ΠΡΠΎΠ²Π΅Π΄Π΅Π½Π° ΠΎΠ±ΡΠ°Ρ Π΄Π»Ρ Π²ΡΠ΅Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΡ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ.
- Π Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ Π½ΠΎΠ²ΡΠ΅ ΡΠ΅ΠΆΠΈΠΌΡ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡ ΡΠ΅ΠΊΡΡΠ°, ΠΎΡΠ½ΠΎΠ²Π°Π½Π½ΡΠ΅ Π½Π° ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΠΉ Ρ ΠΏΠ»Π°Π²Π°ΡΡΠ΅ΠΉ Π·Π°ΠΏΡΡΠΎΠΉ. ΠΠΎΠ²ΡΠ΅ ΡΠ΅ΠΆΠΈΠΌΡ ΠΎΡΠ»ΠΈΡΠ°ΡΡΡΡ Π±ΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠΊΠΎΠΉ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΡΡ ΠΈ ΡΠ½ΠΈΠΆΠ΅Π½ΠΈΠ΅ΠΌ ΠΏΠΎΡΡΠ΅Π±Π»Π΅Π½ΠΈΡ ΠΏΠ°ΠΌΡΡΠΈ. Π Π΄Π²ΠΈΠΆΠΊΠ΅ LSTM Π±ΡΡΡΡΡΠΉ ΡΠ΅ΠΆΠΈΠΌ float32 Π²ΠΊΠ»ΡΡΡΠ½ ΠΏΠΎ ΡΠΌΠΎΠ»ΡΠ°Π½ΠΈΡ.
- ΠΡΡΡΠ΅ΡΡΠ²Π»ΡΠ½ ΠΏΠ΅ΡΠ΅Ρ ΠΎΠ΄ Π½Π° ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ Π½ΠΎΡΠΌΠ°Π»ΠΈΠ·Π°ΡΠΈΠΈ Unicode Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΡΠΎΡΠΌΡ NFC (Normalization Form Canonical).
- ΠΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΎΠΏΡΠΈΡ Π΄Π»Ρ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ Π΄Π΅ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΠΈ Π»ΠΎΠ³ΠΎΠ² (βloglevel).
- ΠΠ΅ΡΠ΅ΡΠ°Π±ΠΎΡΠ°Π½Π° ΡΠΈΡΡΠ΅ΠΌΠ° ΡΠ±ΠΎΡΠΊΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Autotools, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΠ΅ΡΠ΅Π²Π΅Π΄Π΅Π½Π° Π½Π° ΡΠ±ΠΎΡΠΊΡ Π² Π½Π΅ΡΠ΅ΠΊΡΡΡΠΈΠ²Π½ΠΎΠΌ ΡΠ΅ΠΆΠΈΠΌΠ΅.
- ΠΠ΅ΡΠΊΠ° Β«masterΒ» Π² Git ΠΏΠ΅ΡΠ΅ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½Π° Π² Β«mainΒ».
- ΠΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° Π½ΠΎΠ²ΡΡ
Π²ΡΠΏΡΡΠΊΠΎΠ² macOS ΠΈ ΡΠΈΡΡΠ΅ΠΌ Apple Π½Π° Π±Π°Π·Π΅ ΡΠΈΠΏΠ° M1.
umthombo: opennet.ru