Текст таних системийг гаргах Tesseract 5.0

Орос, Казак, Беларусь, Украйн зэрэг 4.1 гаруй хэл дээрх UTF-8 тэмдэгт, текстийг таних боломжийг олгодог Tesseract 100 оптик текст таних системийг гаргасан. Үр дүнг энгийн текст эсвэл HTML (hOCR), ALTO (XML), PDF болон TSV форматаар хадгалах боломжтой. Уг системийг 1985-1995 онд Hewlett Packard-ийн лабораторид бүтээсэн бөгөөд 2005 онд Apache лицензийн дагуу уг кодыг нээж, Google-ийн ажилтнуудын оролцоотойгоор цаашид хөгжүүлсэн. Төслийн эх кодыг Apache 2.0 лицензийн дагуу түгээдэг.

Tesseract нь бусад програмуудад OCR функцийг суулгахад зориулагдсан консол хэрэгсэл болон libtesseract номын санг агуулдаг. Tesseract-ийг дэмждэг гуравдагч талын GUI интерфэйсүүдэд gImageReader, VietOCR болон YAGF орно. Таних хоёр хөдөлгүүрийг санал болгож байна: текстийг бие даасан тэмдэгтийн хэв маягийн түвшинд таних сонгодог, мөн LSTM давтагдах мэдрэлийн сүлжээнд суурилсан машин сургалтын систем ашиглахад суурилсан шинэ нь бүх мөрийг таних, таних боломжийг олгодог. нарийвчлалын мэдэгдэхүйц өсөлт. Бэлэн бэлтгэгдсэн загваруудыг 123 хэлээр хэвлүүлсэн. Гүйцэтгэлийг оновчтой болгохын тулд OpenMP болон SIMD зааварчилгааг ашиглан AVX2, AVX, NEON эсвэл SSE4.1 модулиудыг санал болгож байна.

Tesseract 5.0-ийн томоохон сайжруулалтууд:

  • Хувилбарын дугаарт мэдэгдэхүйц өөрчлөлт гарсан нь API-д хийсэн өөрчлөлтүүд нь нийцтэй байдлыг зөрчсөнтэй холбоотой юм. Ялангуяа олон нийтэд нээлттэй libtesseract API нь std::string болон std::vector-ын давуу тал болох GenericVector болон STRING өгөгдлийн төрлүүдтэй холбогдохоо больсон.
  • Эх текстийн модыг дахин зохион байгууллаа. Нийтийн толгой файлуудыг include/tesseract лавлах руу зөөсөн.
  • Санах ойн менежмент шинэчлэгдсэн, бүх malloc болон үнэгүй дуудлага C++ кодоор солигдсон. Кодын ерөнхий шинэчлэл хийгдсэн.
  • ARM болон ARM64 архитектурт оновчлол нэмэгдсэн; ARM NEON заавар нь тооцооллыг хурдасгахад ашиглагддаг. Бүх архитектурт нийтлэг байдаг гүйцэтгэлийн оновчлол хийгдсэн.
  • Хөвөгч цэгийн тооцоололд суурилсан сургалтын загвар, текстийг таних шинэ горимууд хэрэгжиж эхэлсэн. Шинэ горимууд нь илүү өндөр гүйцэтгэл, бага санах ойн зарцуулалтыг санал болгодог. LSTM хөдөлгүүрт float32 хурдан горимыг анхдагчаар идэвхжүүлдэг.
  • NFC (Normalization Form Canonical) маягтыг ашиглан Юникод хэвийн болгоход шилжилт хийсэн.
  • Бүртгэлийн дэлгэрэнгүйг (--loglevel) тохируулах сонголтыг нэмсэн.
  • Autotools дээр суурилсан бүтээх системийг дахин боловсруулж, рекурсив бус горимд бүтээх горимд шилжүүлсэн.
  • Гит дэх "мастер" салбарыг "гол" болгон өөрчилсөн.
  • M1 чип дээр суурилсан macOS болон Apple системийн шинэ хувилбаруудад дэмжлэг нэмсэн.

    Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх