Liberigo de la tekstrekonosistemo Tesseract 5.0

La liberigo de la Tesseract 4.1 optika tekstrekona sistemo estis publikigita, apogante rekonon de UTF-8-signoj kaj tekstoj en pli ol 100 lingvoj, inkluzive de rusa, kazaĥa, belorusa kaj ukraina. La rezulto povas esti konservita en simpla teksto aŭ en HTML (hOCR), ALTO (XML), PDF kaj TSV formatoj. La sistemo estis origine kreita en 1985-1995 en la Hewlett Packard-laboratorio; en 2005, la kodo estis malfermita sub la Apache-licenco kaj estis plue evoluigita kun la partopreno de Google-dungitoj. La fontkodo de la projekto estas distribuita sub la permesilo Apache 2.0.

Tesseract inkluzivas konzolan utilecon kaj la libtesseract-bibliotekon por enigi OCR-funkciecon en aliajn aplikojn. Triaj GUI-interfacoj kiuj subtenas Tesseract inkluzivas gImageReader, VietOCR kaj YAGF. Du rekonmotoroj estas ofertitaj: klasika kiu rekonas tekston je la nivelo de individuaj signopadronoj, kaj nova bazita sur la uzo de maŝinlernado sistemo bazita sur LSTM ripetiĝanta neŭrala reto, optimumigita por rekoni tutajn ŝnurojn kaj ebligante signifa pliiĝo en precizeco. Pretaj trejnitaj modeloj estis publikigitaj por 123 lingvoj. Por optimumigi rendimenton, moduloj uzantaj OpenMP kaj SIMD-instrukciojn AVX2, AVX, NEON aŭ SSE4.1 estas ofertitaj.

Gravaj plibonigoj en Tesseract 5.0:

  • Signifa ŝanĝo en versio-numero ŝuldiĝas al ŝanĝoj faritaj al la API, kiuj rompas kongruecon. Aparte, la publike disponebla libtesseract API ne plu estas ligita al la proprietaj datumtipoj GenericVector kaj STRING, favore al std::string kaj std::vector.
  • La fontteksto-arbo estis reorganizita. Publikaj kapdosieroj estis movitaj al la dosierujo include/tesseract.
  • Memoradministrado estis restrukturita, ĉiuj malloc kaj senpagaj vokoj estis anstataŭigitaj per C++-kodo. Ĝenerala modernigo de la kodo estis farita.
  • Aldonitaj optimumigoj por ARM kaj ARM64-arkitekturoj; ARM NEON-instrukcioj estas uzataj por akceli kalkulojn. Efikecoptimumigo komuna al ĉiuj arkitekturoj estis efektivigita.
  • Novaj reĝimoj por trejnado de modeloj kaj tekstrekono bazita sur la uzo de glitkomaj kalkuloj estis efektivigitaj. La novaj reĝimoj ofertas pli altan rendimenton kaj pli malaltan memorkonsumon. En la LSTM-motoro, float32 rapida reĝimo estas ebligita defaŭlte.
  • Transiro estis farita al uzado de Unikoda normaligo per la formo NFC (Normalization Form Canonical).
  • Aldonita opcio por agordi protokolan detalon (--loglevel).
  • La konstrusistemo bazita sur Autotools estis restrukturita kaj ŝanĝita por konstrui en ne-rekursiva reĝimo.
  • La "majstro" branĉo en Git estis renomita al "ĉefa".
  • Aldonita subteno por novaj eldonoj de macOS kaj Apple-sistemoj bazitaj sur la M1-peceto.

    fonto: opennet.ru

Aldoni komenton