Текст таних системийг гаргах Tesseract 5.3.4

Орос, Казак, Беларусь, Украйн зэрэг 5.3.4 гаруй хэл дээрх UTF-8 тэмдэгт, текстийг таних боломжийг олгодог Tesseract 100 оптик текст таних системийг гаргасан. Үр дүнг энгийн текст эсвэл HTML (hOCR), ALTO (XML), PDF болон TSV форматаар хадгалах боломжтой. Уг системийг 1985-1995 онд Hewlett Packard-ийн лабораторид бүтээсэн бөгөөд 2005 онд Apache лицензийн дагуу уг кодыг нээж, Google-ийн ажилтнуудын оролцоотойгоор цаашид хөгжүүлсэн. Төслийн эх кодыг Apache 2.0 лицензийн дагуу түгээдэг.

Tesseract нь бусад програмуудад OCR функцийг суулгахад зориулагдсан консол хэрэгсэл болон libtesseract номын санг агуулдаг. Tesseract-ийг дэмждэг гуравдагч талын GUI интерфэйсүүдэд gImageReader, VietOCR болон YAGF орно. Таних хоёр хөдөлгүүрийг санал болгож байна: текстийг бие даасан тэмдэгтийн хэв маягийн түвшинд таних сонгодог, мөн LSTM давтагдах мэдрэлийн сүлжээнд суурилсан машин сургалтын систем ашиглахад суурилсан шинэ нь бүх мөрийг таних, таних боломжийг олгодог. нарийвчлалын мэдэгдэхүйц өсөлт. Бэлэн бэлтгэгдсэн загваруудыг 123 хэлээр хэвлүүлсэн. Гүйцэтгэлийг оновчтой болгохын тулд OpenMP болон SIMD зааварчилгааг ашиглан AVX2, AVX, AVX512F, NEON эсвэл SSE4.1-ийг санал болгож байна.

Гол сайжруулалтууд:

  • Libcurl номын санг ашиглан файл татаж авах замаар URL хаягаар дүрс таних чадварыг сайжруулсан. Ачаалах үед User-Agent толгой хэсгийг тохируулна. Күүки файлыг ашиглах curl_cookiefile шинэ параметрийг нэмсэн.
  • ScrollView сервер нь TCP-ийг илүүд үздэг протокол болгон ашигладаг.
  • "combine_tessdata -d" командыг ашиглах үед гаралтыг stderr-ийн оронд stdout-д өгдөг.
  • Autoconf болон clang ашиглах үед бүтээх асуудлыг зассан.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх