Текст таних системийг гаргах Tesseract 4.1

Бэлтгэсэн Текст таних оптик системийг гаргасан Тессеракт 4.1, Орос, Казак, Беларусь, Украйн зэрэг 8 гаруй хэл дээрх UTF-100 тэмдэгт, текстийг таних боломжийг олгодог. Үр дүнг энгийн текст эсвэл HTML (hOCR), ALTO (XML), PDF болон TSV форматаар хадгалах боломжтой. Уг системийг анх 1985-1995 онд Hewlett Packard лабораторид бүтээж, 2005 онд Apache лицензийн дагуу уг кодыг нээж, Google-ийн ажилчдын оролцоотойгоор цаашид хөгжүүлсэн. Төслийн эх сурвалжууд тархалт Apache 2.0 дагуу лицензтэй.

Tesseract нь бусад програмуудад OCR функцийг суулгахад зориулагдсан консол хэрэгсэл болон libtesseract номын санг агуулдаг. Tesseract-ийг дэмждэг гуравдагч этгээдээс GUI интерфэйсүүд та тэмдэглэж болно gImageReader, VietOCR и YAGF. Таних хоёр хөдөлгүүрийг санал болгож байна: текстийг бие даасан тэмдэгтийн хэв маягийн түвшинд таних сонгодог, мөн LSTM давтагдах мэдрэлийн сүлжээнд суурилсан машин сургалтын систем ашиглахад суурилсан шинэ нь бүх мөрийг таних, таних боломжийг олгодог. нарийвчлалын мэдэгдэхүйц өсөлт. Бэлэн бэлтгэгдсэн загваруудыг нийтлэв 123 хэл. Гүйцэтгэлийг оновчтой болгохын тулд OpenMP болон AVX2, AVX эсвэл SSE4.1 SIMD зааврыг ашигладаг модулиудыг санал болгож байна.

Үндсэн сайжруулалт Tesseract 4.1 дээр:

  • XML форматаар гаргах чадварыг нэмсэн ALTO (Шинжилсэн байршил ба текстийн объект). Энэ форматыг ашиглахын тулд та програмыг "tessaract image_name alto output_dir" хэлбэрээр ажиллуулах хэрэгтэй;
  • Хөдөлгүүрийн сургалтыг хялбаршуулсан LSTMBox болон WordStrBox дүрслэх шинэ модулиудыг нэмсэн;
  • hOCR (HTML) гаралт дахь псевдографийн дэмжлэгийг нэмсэн;
  • Машины сургалтанд суурилсан хөдөлгүүрийг сургах зорилгоор Python хэл дээр бичигдсэн өөр скриптүүдийг нэмсэн;
  • AVX, AVX2 болон SSE зааварчилгааг ашиглан өргөтгөсөн оновчлол;
  • Үүний улмаас OpenMP дэмжлэг анхдагчаар идэвхгүй болсон асуудлууд бүтээмжтэй;
  • LSTM хөдөлгүүрт цагаан ба хар жагсаалтад зориулсан дэмжлэг нэмэгдсэн;
  • Cmake дээр суурилсан скриптүүдийг сайжруулсан.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх