Pagpagawas sa Tesseract 4.1 nga sistema sa pag-ila sa teksto

Giandam pagpagawas sa optical text recognition system Tesseract 4.1, nagsuporta sa pag-ila sa UTF-8 nga mga karakter ug mga teksto sa labaw sa 100 ka mga pinulongan, lakip ang Russian, Kazakh, Belarusian ug Ukrainian. Ang resulta mahimong ma-save sa yano nga teksto o sa HTML (hOCR), ALTO (XML), PDF ug TSV nga mga format. Ang sistema orihinal nga gimugna niadtong 1985-1995 sa laboratoryo sa Hewlett Packard; niadtong 2005, ang kodigo giablihan ubos sa lisensya sa Apache ug gipalambo pa uban sa partisipasyon sa mga empleyado sa Google. Mga tinubdan sa proyekto pagkaylap lisensyado ubos sa Apache 2.0.

Ang Tesseract naglakip sa usa ka console utility ug ang libtesseract library alang sa pag-embed sa OCR functionality ngadto sa ubang mga aplikasyon. Gikan sa mga ikatulo nga partido nga nagsuporta sa Tesseract Mga interface sa GUI mahimo nimong timan-an gImageReader, VietOCR ΠΈ YAGF. Duha ka makina sa pag-ila ang gitanyag: usa ka klasiko nga nag-ila sa teksto sa lebel sa indibidwal nga mga sumbanan sa karakter, ug usa ka bag-o nga gibase sa paggamit sa usa ka sistema sa pagkat-on sa makina nga gibase sa usa ka nagbalikbalik nga neural network sa LSTM, na-optimize alang sa pag-ila sa tibuuk nga mga kuwerdas ug gitugotan ang usa ka mahinungdanon nga pagtaas sa katukma. Ang mga andam nga gibansay nga mga modelo gipatik alang sa 123 ka pinulongan. Aron ma-optimize ang pasundayag, gitanyag ang mga module gamit ang OpenMP ug AVX2, AVX o SSE4.1 SIMD nga mga panudlo.

nag-unang mga kalamboan sa Tesseract 4.1:

  • Gidugang ang abilidad sa pag-output sa XML format Alto (Gi-analisar nga Layout ug Text Object). Aron magamit kini nga format, kinahanglan nimong ipadagan ang aplikasyon ingon "tessarac image_name alto output_dir";
  • Gidugang ang bag-ong rendering modules nga LSTMBox ug WordStrBox, nga nagpayano sa pagbansay sa makina;
  • Gidugang nga suporta alang sa pseudographics sa hOCR (HTML) nga output;
  • Gidugang ang mga alternatibong script nga gisulat sa Python alang sa pagbansay sa makina base sa pagkat-on sa makina;
  • Gipalapad nga mga pag-optimize gamit ang AVX, AVX2 ug mga panudlo sa SSE;
  • Ang suporta sa OpenMP gi-disable pinaagi sa default tungod sa mga problema uban ang pagka-produktibo;
  • Gidugang nga suporta alang sa puti ug itom nga mga lista sa LSTM engine;
  • Gipauswag nga mga script sa pagtukod base sa Cmake.

Source: opennet.ru

Idugang sa usa ka comment