Serbestberdana pergala naskirina nivîsê Tesseract 5.3.4

Serbestberdana pergala naskirina nivîsê ya optîkî Tesseract 5.3.4 hate weşandin, ku piştgirî dide naskirina tîp û nivîsên UTF-8 bi zêdetirî 100 zimanan, di nav de Rûsî, Kazak, Belarusî û Ukraynî. Encam dikare di nivîsa sade an di HTML (hOCR), ALTO (XML), PDF û formatên TSV de were tomar kirin. Pergal di destpêkê de di 1985-1995-an de li laboratûara Hewlett Packard hate afirandin; di 2005-an de, kod di bin lîsansa Apache de hate vekirin û bi beşdariya karmendên Google-ê bêtir hate pêşve xistin. Koda çavkaniyê ya projeyê di bin lîsansa Apache 2.0 de tê belav kirin.

Tesseract karûbarek konsolê û pirtûkxaneya libtesseract vedihewîne ku fonksiyona OCR-ê di nav sepanên din de bicîh bike. Têkiliyên GUI-ya sêyemîn ên ku Tesseract piştgirî dikin gImageReader, VietOCR û YAGF hene. Du motorên naskirinê têne pêşkêş kirin: a klasîk ku nivîsê di asta qalibên karakterên kesane de nas dike, û ya nû li ser bingeha karanîna pergalek fêrbûna makîneyê ya ku li ser bingeha tora neuralî ya LSTM-ya dûbare, xweşbîn e ku ji bo naskirina tevahî rêzan xweştir e û destûr dide. zêdebûna girîng di rastbûna. Ji bo 123 zimanan modelên perwerdekirî yên amade hatine weşandin. Ji bo xweşbînkirina performansê, modulên ku bi rêwerzên OpenMP û SIMD AVX2, AVX, AVX512F, NEON an SSE4.1 bikar tînin têne pêşkêş kirin.

Pêşveçûnên sereke:

  • Bi dakêşana pelê bi karanîna pirtûkxaneya libcurl re naskirina wêneyê ji hêla URL-ê ve çêtir kirin. Dema barkirinê, sernavê Bikarhêner-Agent tê danîn. Parametreya nû curl_cookiefile ji bo karanîna pelek cookie zêde kir.
  • Pêşkêşkara ScrollView TCP wekî protokola xweya bijarte bikar tîne.
  • Dema ku emrê "combine_tessdata -d" bi kar tînin, li şûna stderr derketin ji stdout re tê peyda kirin.
  • Dema ku otoconf û cang bikar tînin pirsgirêkên avakirinê rast kirin.

Source: opennet.ru

Add a comment