Siideynta nidaamka aqoonsiga qoraalka Tesseract 5.0

Siideynta nidaamka aqoonsiga qoraalka indhaha ee Tesseract 4.1 ayaa la daabacay, isagoo taageeraya aqoonsiga UTF-8 xarfaha iyo qoraallada in ka badan 100 luqadood, oo ay ku jiraan Ruush, Kazakh, Belarusian iyo Yukreeniyaan. Natiijadu waxay ku kaydsan kartaa qoraal cad ama HTML (hOCR), ALTO (XML), PDF iyo qaababka TSV. Nidaamka waxaa markii hore la abuuray 1985-1995 shaybaarka Hewlett Packard; 2005, koodka waxaa lagu furay shatiga Apache waxaana sii kordhay iyada oo ay ka qayb qaadanayaan shaqaalaha Google. Koodhka isha ee mashruuca waxaa lagu qaybiyaa shatiga Apache 2.0.

Tesseract waxaa ku jira utility console iyo maktabadda libteseract si loogu dhejiyo shaqeynta OCR ee codsiyada kale. Isku xirka GUI-ga saddexaad ee taageera Tesseract waxaa ka mid ah gImageReader, VietOCR iyo YAGF. Laba matoorada aqoonsiga ayaa la bixiyaa: mid classic ah oo aqoonsanaya qoraalka heerka qaababka dabeecadaha shakhsi ahaaneed, iyo mid cusub oo ku salaysan isticmaalka nidaamka barashada mashiinka oo ku salaysan shabakada neerfaha ee soo noqnoqda ee LSTM, oo loo habeeyay aqoonsiga xargaha oo dhan iyo oggolaanshaha a koror weyn oo sax ah. Moodooyinka tababbaran ee diyaarsan ayaa lagu daabacay 123 luqadood. Si kor loogu qaado waxqabadka, modules isticmaalaya OpenMP iyo tilmaamaha SIMD AVX2, AVX, NEON ama SSE4.1 ayaa la bixiyaa.

Horumarka waaweyn ee Tesseract 5.0:

  • Π—Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π½ΠΎΠΌΠ΅Ρ€Π° вСрсии связано с внСсСниСм Π² API ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ, Π½Π°Ρ€ΡƒΡˆΠ°ΡŽΡ‰ΠΈΡ… ΡΠΎΠ²ΠΌΠ΅ΡΡ‚ΠΈΠΌΠΎΡΡ‚ΡŒ. Π’ частности, ΠΏΡƒΠ±Π»ΠΈΡ‡Π½ΠΎ доступный API libtesseract большС Π½Π΅ привязан ΠΊ ΠΏΡ€ΠΎΠΏΡ€ΠΈΠ΅Ρ‚Π°Ρ€Π½Ρ‹ΠΌ Ρ‚ΠΈΠΏΠ°ΠΌ Π΄Π°Π½Π½Ρ‹Ρ… GenericVector ΠΈ STRING, вмСсто ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π² ΠΊΠΎΠ΄Π΅ задСйствованы std::string ΠΈ std::vector.
  • ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π° рСорганизация Π΄Π΅Ρ€Π΅Π²Π° исходных тСкстов. ΠŸΡƒΠ±Π»ΠΈΡ‡Π½Ρ‹Π΅ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΎΡ‡Π½Ρ‹Π΅ Ρ„Π°ΠΉΠ»Ρ‹ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Ρ‰Π΅Π½Ρ‹ Π² ΠΊΠ°Ρ‚Π°Π»ΠΎΠ³ include/tesseract.
  • ΠŸΠ΅Ρ€Π΅Ρ€Π°Π±ΠΎΡ‚Π°Π½ΠΎ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ, всС Π²Ρ‹Π·ΠΎΠ²Ρ‹ malloc ΠΈ free Π·Π°ΠΌΠ΅Π½Π΅Π½Ρ‹ Π½Π° ΠΊΠΎΠ΄ C++. ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π° общая модСрнизация ΠΊΠΎΠ΄Π°.
  • Π”ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ для Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ ARM ΠΈ ARM64, для ускорСния вычислСний задСйствованы инструкции ARM NEON. ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π° общая для всСх Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ оптимизация ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.
  • Π Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ‹ Π½ΠΎΠ²Ρ‹Π΅ Ρ€Π΅ΠΆΠΈΠΌΡ‹ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ распознавания тСкста, основанныС Π½Π° использовании вычислСний с ΠΏΠ»Π°Π²Π°ΡŽΡ‰Π΅ΠΉ запятой. НовыС Ρ€Π΅ΠΆΠΈΠΌΡ‹ ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ Π±ΠΎΠ»Π΅Π΅ высокой ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ ΠΈ сниТСниСм потрСблСния памяти. Π’ Π΄Π²ΠΈΠΆΠΊΠ΅ LSTM быстрый Ρ€Π΅ΠΆΠΈΠΌ float32 Π²ΠΊΠ»ΡŽΡ‡Ρ‘Π½ ΠΏΠΎ ΡƒΠΌΠΎΠ»Ρ‡Π°Π½ΠΈΡŽ.
  • ΠžΡΡƒΡ‰Π΅ΡΡ‚Π²Π»Ρ‘Π½ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ Π½Π° использованиС Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Unicode с использованиСм Ρ„ΠΎΡ€ΠΌΡ‹ NFC (Normalization Form Canonical).
  • Π”ΠΎΠ±Π°Π²Π»Π΅Π½Π° опция для настройки Π΄Π΅Ρ‚Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π»ΠΎΠ³ΠΎΠ² (β€”loglevel).
  • ΠŸΠ΅Ρ€Π΅Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° систСма сборки Π½Π° основС Autotools, которая ΠΏΠ΅Ρ€Π΅Π²Π΅Π΄Π΅Π½Π° Π½Π° сборку Π² нСрСкурсивном Ρ€Π΅ΠΆΠΈΠΌΠ΅.
  • Π’Π΅Ρ‚ΠΊΠ° Β«masterΒ» Π² Git ΠΏΠ΅Ρ€Π΅ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½Π° Π² Β«mainΒ».
  • Π”ΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° Π½ΠΎΠ²Ρ‹Ρ… выпусков macOS ΠΈ систСм Apple Π½Π° Π±Π°Π·Π΅ Ρ‡ΠΈΠΏΠ° M1.

    Source: opennet.ru

Add a comment