Ukukhutshwa kwenkqubo yokuqaphela umbhalo iTesseract 5.0

Ukukhutshwa kwenkqubo ye-Tesseract 4.1 ye-optical text recognition system iye yapapashwa, ixhasa ukuqatshelwa kweempawu ze-UTF-8 kunye nemibhalo kwiilwimi ezingaphezu kwe-100, kuquka isiRashiya, isiKazakh, isiBelarusian kunye ne-Ukraine. Isiphumo sinokugcinwa kwisicatshulwa esicacileyo okanye kwi-HTML (hOCR), ALTO (XML), PDF kunye neefomathi ze-TSV. Inkqubo yaqala ngo-1985-1995 kwibhubhoratri ye-Hewlett Packard; kwi-2005, ikhowudi yavulwa phantsi kwelayisensi ye-Apache kwaye yaphuhliswa ngakumbi ngokuthatha inxaxheba kwabasebenzi bakaGoogle. Ikhowudi yomthombo weprojekthi ihanjiswa phantsi kwelayisensi ye-Apache 2.0.

I-Tesseract ibandakanya into eluncedo ye-console kunye nethala leencwadi le-libtesseract lokuzinzisa ukusebenza kwe-OCR kwezinye izicelo. Ujongano lweqela lesithathu lwe-GUI oluxhasa iTesseract lubandakanya i-gImageReader, iVietOCR kunye neYAGF. Iinjini ezimbini zokuqaphela zinikezelwa: enye yeklasikhi eqaphela isicatshulwa kwinqanaba leepateni zomlinganiswa ngamnye, kunye nentsha esekelwe ekusebenziseni inkqubo yokufunda ngomatshini esekelwe kwinethiwekhi ye-neural ye-LSTM ephindaphindiweyo, elungiselelwe ukuqaphela iintambo ezipheleleyo kunye nokuvumela ukuba ukwanda okubalulekileyo kokuchaneka. Imifuziselo esele yenziwe sele ipapashiwe ngeelwimi ezili-123. Ukwandisa ukusebenza, iimodyuli ezisebenzisa i-OpenMP kunye nemiyalelo ye-SIMD i-AVX2, i-AVX, i-NEON okanye i-SSE4.1 inikezelwa.

Uphuculo olukhulu kwiTesseract 5.0:

  • Π—Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π½ΠΎΠΌΠ΅Ρ€Π° вСрсии связано с внСсСниСм Π² API ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ, Π½Π°Ρ€ΡƒΡˆΠ°ΡŽΡ‰ΠΈΡ… ΡΠΎΠ²ΠΌΠ΅ΡΡ‚ΠΈΠΌΠΎΡΡ‚ΡŒ. Π’ частности, ΠΏΡƒΠ±Π»ΠΈΡ‡Π½ΠΎ доступный API libtesseract большС Π½Π΅ привязан ΠΊ ΠΏΡ€ΠΎΠΏΡ€ΠΈΠ΅Ρ‚Π°Ρ€Π½Ρ‹ΠΌ Ρ‚ΠΈΠΏΠ°ΠΌ Π΄Π°Π½Π½Ρ‹Ρ… GenericVector ΠΈ STRING, вмСсто ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π² ΠΊΠΎΠ΄Π΅ задСйствованы std::string ΠΈ std::vector.
  • ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π° рСорганизация Π΄Π΅Ρ€Π΅Π²Π° исходных тСкстов. ΠŸΡƒΠ±Π»ΠΈΡ‡Π½Ρ‹Π΅ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΎΡ‡Π½Ρ‹Π΅ Ρ„Π°ΠΉΠ»Ρ‹ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Ρ‰Π΅Π½Ρ‹ Π² ΠΊΠ°Ρ‚Π°Π»ΠΎΠ³ include/tesseract.
  • ΠŸΠ΅Ρ€Π΅Ρ€Π°Π±ΠΎΡ‚Π°Π½ΠΎ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ, всС Π²Ρ‹Π·ΠΎΠ²Ρ‹ malloc ΠΈ free Π·Π°ΠΌΠ΅Π½Π΅Π½Ρ‹ Π½Π° ΠΊΠΎΠ΄ C++. ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π° общая модСрнизация ΠΊΠΎΠ΄Π°.
  • Π”ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ для Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ ARM ΠΈ ARM64, для ускорСния вычислСний задСйствованы инструкции ARM NEON. ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π° общая для всСх Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ оптимизация ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.
  • Π Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ‹ Π½ΠΎΠ²Ρ‹Π΅ Ρ€Π΅ΠΆΠΈΠΌΡ‹ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ распознавания тСкста, основанныС Π½Π° использовании вычислСний с ΠΏΠ»Π°Π²Π°ΡŽΡ‰Π΅ΠΉ запятой. НовыС Ρ€Π΅ΠΆΠΈΠΌΡ‹ ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ Π±ΠΎΠ»Π΅Π΅ высокой ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ ΠΈ сниТСниСм потрСблСния памяти. Π’ Π΄Π²ΠΈΠΆΠΊΠ΅ LSTM быстрый Ρ€Π΅ΠΆΠΈΠΌ float32 Π²ΠΊΠ»ΡŽΡ‡Ρ‘Π½ ΠΏΠΎ ΡƒΠΌΠΎΠ»Ρ‡Π°Π½ΠΈΡŽ.
  • ΠžΡΡƒΡ‰Π΅ΡΡ‚Π²Π»Ρ‘Π½ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ Π½Π° использованиС Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Unicode с использованиСм Ρ„ΠΎΡ€ΠΌΡ‹ NFC (Normalization Form Canonical).
  • Π”ΠΎΠ±Π°Π²Π»Π΅Π½Π° опция для настройки Π΄Π΅Ρ‚Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π»ΠΎΠ³ΠΎΠ² (β€”loglevel).
  • ΠŸΠ΅Ρ€Π΅Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° систСма сборки Π½Π° основС Autotools, которая ΠΏΠ΅Ρ€Π΅Π²Π΅Π΄Π΅Π½Π° Π½Π° сборку Π² нСрСкурсивном Ρ€Π΅ΠΆΠΈΠΌΠ΅.
  • Π’Π΅Ρ‚ΠΊΠ° Β«masterΒ» Π² Git ΠΏΠ΅Ρ€Π΅ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½Π° Π² Β«mainΒ».
  • Π”ΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° Π½ΠΎΠ²Ρ‹Ρ… выпусков macOS ΠΈ систСм Apple Π½Π° Π±Π°Π·Π΅ Ρ‡ΠΈΠΏΠ° M1.

    umthombo: opennet.ru

Yongeza izimvo