Текст таних системийг гаргах Tesseract 5.5.0

Орос, Казак, Беларусь, Украйн зэрэг 5.5.0 гаруй хэл дээр Юникод болон текст танихыг дэмждэг Tesseract 100 оптик текст таних системийн хувилбар хэвлэгдсэн. Үр дүнг энгийн текст эсвэл HTML (hOCR), ALTO (XML), PDF болон TSV форматаар хадгалах боломжтой. Уг системийг 1985-1995 онд Hewlett Packard лабораторид 2005 онд бүтээж, уг кодыг Apache лицензийн дагуу нээж, Google-ийн ажилтнуудын оролцоотойгоор хөгжүүлсэн. Төслийн эх кодыг Apache 2.0 лицензийн дагуу түгээдэг.

Tesseract нь бусад програмуудад OCR функцийг суулгахад зориулагдсан консол хэрэгсэл болон libtesseract номын санг агуулдаг. Tesseract-ийг дэмждэг гуравдагч талын GUI интерфэйсүүдэд gImageReader, VietOCR болон YAGF орно. Таних хоёр хөдөлгүүрийг санал болгож байна: текстийг бие даасан тэмдэгтийн хэв маягийн түвшинд таних сонгодог, мөн LSTM давтагдах мэдрэлийн сүлжээнд суурилсан машин сургалтын систем ашиглахад суурилсан шинэ нь бүх мөрийг таних, таних боломжийг олгодог. нарийвчлалын мэдэгдэхүйц өсөлт. Бэлэн бэлтгэгдсэн загваруудыг 123 хэлээр хэвлүүлсэн. Гүйцэтгэлийг оновчтой болгохын тулд OpenMP болон SIMD зааврыг AVX2, AVX, AVX512F, NEON эсвэл SSE4.1 ашигладаг модулиудыг санал болгож байна.

Гол сайжруулалтууд:

  • RISC-V V вектор өргөтгөлүүдийн дэмжлэгийг нэмсэн бөгөөд үүний үндсэн дээр RISC-V процессортой системүүдийн угсралтын оновчлолыг бэлтгэсэн болно.
  • Үр дүнг hOCR форматаар бичихдээ ocrp_dir болон ocrp_lang параметрүүдийг үүсгэсэн файлд тохируулна.
  • Боломжтой хэлний загварыг илрүүлэхийн тулд шинэчилсэн код.
  • hOCR форматаар файл үүсгэх кодыг сайжруулж, Windows платформ дээрх файлын нэрийг хөрвүүлэхийг устгасан.
  • "--oem" ба "-psm" сонголтуудад тэмдэгтийн утгыг зааж өгөхийг зөвшөөрнө.
  • Код нь access болон _access функцуудыг std::filesystem::exists() аргаар сольсон. tprintf функцуудыг tesserr урсгал ашиглан сольсон.
  • Нэгэн цагт хэрэгжиж байсан боловч хиймэл оюун ухаан таних загваруудыг ажиллуулахад хэзээ ч ашиглагдаагүй байсан Tensorflow машин сургалтын платформын дэмжлэгийг хассан.
  • Windows платформд зориулсан сайжруулсан суулгагч.
  • Googletest дэд модулийг 1.15.2 хувилбар болгон шинэчилсэн.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх