Текст таних системийг гаргах Tesseract 5.2

Орос, Казак, Беларусь, Украйн зэрэг 5.2 гаруй хэл дээрх UTF-8 тэмдэгт, текстийг таних боломжийг олгодог Tesseract 100 оптик текст таних системийг гаргасан. Үр дүнг энгийн текст эсвэл HTML (hOCR), ALTO (XML), PDF болон TSV форматаар хадгалах боломжтой. Уг системийг 1985-1995 онд Hewlett Packard-ийн лабораторид бүтээсэн бөгөөд 2005 онд Apache лицензийн дагуу уг кодыг нээж, Google-ийн ажилтнуудын оролцоотойгоор цаашид хөгжүүлсэн. Төслийн эх кодыг Apache 2.0 лицензийн дагуу түгээдэг.

Tesseract нь бусад програмуудад OCR функцийг суулгахад зориулагдсан консол хэрэгсэл болон libtesseract номын санг агуулдаг. Tesseract-ийг дэмждэг гуравдагч талын GUI интерфэйсүүдэд gImageReader, VietOCR болон YAGF орно. Таних хоёр хөдөлгүүрийг санал болгож байна: текстийг бие даасан тэмдэгтийн хэв маягийн түвшинд таних сонгодог, мөн LSTM давтагдах мэдрэлийн сүлжээнд суурилсан машин сургалтын систем ашиглахад суурилсан шинэ нь бүх мөрийг таних, таних боломжийг олгодог. нарийвчлалын мэдэгдэхүйц өсөлт. Бэлэн бэлтгэгдсэн загваруудыг 123 хэлээр хэвлүүлсэн. Гүйцэтгэлийг оновчтой болгохын тулд OpenMP болон SIMD зааварчилгааг ашиглан AVX2, AVX, AVX512F, NEON эсвэл SSE4.1-ийг санал болгож байна.

Tesseract 5.2-ийн томоохон сайжруулалтууд:

  • Intel AVX512F зааврыг ашиглан хэрэгжүүлсэн оновчлолуудыг нэмсэн.
  • C API нь санах ойноос машин сурах загварыг ачаалснаар tesseract-ийг эхлүүлэх функцийг хэрэгжүүлдэг.
  • Текст мөрүүдийн урвуу түвшинг тодорхойлдог invert_threshold параметрийг нэмсэн. Өгөгдмөл утга нь 0.7 байна. Инверсийг идэвхгүй болгохын тулд утгыг 0 болгож тохируулна уу.
  • 32 битийн хостууд дээр маш том баримт бичгийн боловсруулалтыг сайжруулсан.
  • std::regex функцийг ашигласнаас std::string руу шилжсэн.
  • Autotools, CMake болон тасралтгүй интеграцийн системд зориулсан скриптүүдийг сайжруулсан.

    Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх