Serbestberdana pergala naskirina nivîsê Tesseract 5.2

Serbestberdana pergala naskirina nivîsê ya optîkî Tesseract 5.2 hate weşandin, ku piştgirî dide naskirina tîp û nivîsên UTF-8 bi zêdetirî 100 zimanan, di nav de Rûsî, Kazak, Belarusî û Ukraynî. Encam dikare di nivîsa sade an di HTML (hOCR), ALTO (XML), PDF û formatên TSV de were tomar kirin. Pergal di destpêkê de di 1985-1995-an de li laboratûara Hewlett Packard hate afirandin; di 2005-an de, kod di bin lîsansa Apache de hate vekirin û bi beşdariya karmendên Google-ê bêtir hate pêşve xistin. Koda çavkaniyê ya projeyê di bin lîsansa Apache 2.0 de tê belav kirin.

Tesseract karûbarek konsolê û pirtûkxaneya libtesseract vedihewîne ku fonksiyona OCR-ê di nav sepanên din de bicîh bike. Têkiliyên GUI-ya sêyemîn ên ku Tesseract piştgirî dikin gImageReader, VietOCR û YAGF hene. Du motorên naskirinê têne pêşkêş kirin: a klasîk ku nivîsê di asta qalibên karakterên kesane de nas dike, û ya nû li ser bingeha karanîna pergalek fêrbûna makîneyê ya ku li ser bingeha tora neuralî ya LSTM-ya dûbare, xweşbîn e ku ji bo naskirina tevahî rêzan xweştir e û destûr dide. zêdebûna girîng di rastbûna. Ji bo 123 zimanan modelên perwerdekirî yên amade hatine weşandin. Ji bo xweşbînkirina performansê, modulên ku bi rêwerzên OpenMP û SIMD AVX2, AVX, AVX512F, NEON an SSE4.1 bikar tînin têne pêşkêş kirin.

Pêşveçûnên sereke di Tesseract 5.2 de:

  • Optimîzasyonên zêdekirî bi karanîna rêwerzên Intel AVX512F hatine bicîh kirin.
  • C API fonksiyonek bicîh dike ku bi barkirina modela fêrbûna makîneyê ji bîranînê re tesseractê bide destpêkirin.
  • Parametreya invert_threshold lê zêde kir, ku asta berevajîkirina rêzikên nivîsê diyar dike. Nirxa xwerû 0.7 e. Ji bo neçalakkirina berevajîkirinê, nirxê 0-ê bicîh bikin.
  • Pêvajoya çêtirkirina belgeyên pir mezin li ser mêvandarên 32-bit.
  • Veguheztin ji karanîna std::regex fonksiyonên std:: string pêk hat.
  • Nivîsarên çêkirinê yên ji bo Autotools, CMake û pergalên entegrasyonê yên domdar çêtir kirin.

    Source: opennet.ru

Add a comment