Liberigo de la tekstrekonosistemo Tesseract 4.1

Preta liberigo de optika teksta rekonsistemo Teserakto 4.1, apogante rekonon de UTF-8-signoj kaj tekstoj en pli ol 100 lingvoj, inkluzive de rusa, kazaĥa, belorusa kaj ukraina. La rezulto povas esti konservita en simpla teksto aŭ en HTML (hOCR), ALTO (XML), PDF kaj TSV formatoj. La sistemo estis origine kreita en 1985-1995 en la Hewlett Packard-laboratorio; en 2005, la kodo estis malfermita sub la Apache-licenco kaj estis plue evoluigita kun la partopreno de Google-dungitoj. Projektfontoj disvastigi licencita sub Apache 2.0.

Tesseract inkluzivas konzolan utilecon kaj la libtesseract-bibliotekon por enigi OCR-funkciecon en aliajn aplikojn. De triaj partioj kiuj subtenas Tesseract GUI-interfacoj vi povas noti gImageReader, VietOCR и YAGF. Du rekonmotoroj estas ofertitaj: klasika kiu rekonas tekston je la nivelo de individuaj signopadronoj, kaj nova bazita sur la uzo de maŝinlernado sistemo bazita sur LSTM ripetiĝanta neŭrala reto, optimumigita por rekoni tutajn ŝnurojn kaj ebligante signifa pliiĝo en precizeco. Pretaj trejnitaj modeloj estas publikigitaj por 123 lingvoj. Por optimumigi rendimenton, moduloj uzantaj OpenMP kaj AVX2, AVX aŭ SSE4.1 SIMD-instrukciojn estas ofertitaj.

Ĉefa plibonigoj en Teseract 4.1:

  • Aldonita la kapablo eligi en XML-formato ALTO (Analizita Aranĝo kaj Teksta Objekto). Por uzi ĉi tiun formaton, vi devus ruli la aplikaĵon kiel "tessaract image_name alto output_dir";
  • Aldonitaj novaj bildigaj moduloj LSTMBox kaj WordStrBox, simpligante motortrejnadon;
  • Aldonita subteno por pseŭdografikoj en hOCR (HTML) eligo;
  • Aldonitaj alternativaj skriptoj skribitaj en Python por trejni la motoron bazitan sur maŝinlernado;
  • Vastigitaj optimumigoj uzante AVX, AVX2 kaj SSE-instrukciojn;
  • OpenMP-subteno estas malŝaltita defaŭlte pro problemoj kun produktiveco;
  • Aldonita subteno por blankaj kaj nigraj listoj en la LSTM-motoro;
  • Plibonigitaj konstruaj skriptoj bazitaj sur Cmake.

fonto: opennet.ru

Aldoni komenton