Текст таних системийг гаргах Tesseract 5.1

Орос, Казак, Беларусь, Украйн зэрэг 5.1 гаруй хэл дээрх UTF-8 тэмдэгт, текстийг таних боломжийг олгодог Tesseract 100 оптик текст таних системийг гаргасан. Үр дүнг энгийн текст эсвэл HTML (hOCR), ALTO (XML), PDF болон TSV форматаар хадгалах боломжтой. Уг системийг 1985-1995 онд Hewlett Packard-ийн лабораторид бүтээсэн бөгөөд 2005 онд Apache лицензийн дагуу уг кодыг нээж, Google-ийн ажилтнуудын оролцоотойгоор цаашид хөгжүүлсэн. Төслийн эх кодыг Apache 2.0 лицензийн дагуу түгээдэг.

Tesseract нь бусад програмуудад OCR функцийг суулгахад зориулагдсан консол хэрэгсэл болон libtesseract номын санг агуулдаг. Tesseract-ийг дэмждэг гуравдагч талын GUI интерфэйсүүдэд gImageReader, VietOCR болон YAGF орно. Таних хоёр хөдөлгүүрийг санал болгож байна: текстийг бие даасан тэмдэгтийн хэв маягийн түвшинд таних сонгодог, мөн LSTM давтагдах мэдрэлийн сүлжээнд суурилсан машин сургалтын систем ашиглахад суурилсан шинэ нь бүх мөрийг таних, таних боломжийг олгодог. нарийвчлалын мэдэгдэхүйц өсөлт. Бэлэн бэлтгэгдсэн загваруудыг 123 хэлээр хэвлүүлсэн. Гүйцэтгэлийг оновчтой болгохын тулд OpenMP болон SIMD зааварчилгааг ашиглан AVX2, AVX, NEON эсвэл SSE4.1 модулиудыг санал болгож байна.

Tesseract 5.1-ийн томоохон сайжруулалтууд:

  • ALTO, hOCR болон текст форматаар гаргахдаа зураг, шугам бүхий хэсгүүдийг боловсруулах чадварыг хэрэгжүүлсэн.
  • curl_timeout lkz curl_easy_setop шинэ параметр нэмсэн.
  • Сайжруулсан барилгын систем.
  • Ашиглагдаагүй кодыг арилгах ажил хийгдсэн
  • PageIterator::Orientation анги дахь null заагчийг буруу харьцсанаас үүссэн эвдрэлийг зассан.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх