Liberigo de la tekstrekonosistemo Tesseract 5.1

La liberigo de la Tesseract 5.1 optika tekstrekona sistemo estis publikigita, apogante rekonon de UTF-8-signoj kaj tekstoj en pli ol 100 lingvoj, inkluzive de rusa, kazaĥa, belorusa kaj ukraina. La rezulto povas esti konservita en simpla teksto aŭ en HTML (hOCR), ALTO (XML), PDF kaj TSV formatoj. La sistemo estis origine kreita en 1985-1995 en la Hewlett Packard-laboratorio; en 2005, la kodo estis malfermita sub la Apache-licenco kaj estis plue evoluigita kun la partopreno de Google-dungitoj. La fontkodo de la projekto estas distribuita sub la permesilo Apache 2.0.

Tesseract inkluzivas konzolan utilecon kaj la libtesseract-bibliotekon por enigi OCR-funkciecon en aliajn aplikojn. Triaj GUI-interfacoj kiuj subtenas Tesseract inkluzivas gImageReader, VietOCR kaj YAGF. Du rekonmotoroj estas ofertitaj: klasika kiu rekonas tekston je la nivelo de individuaj signopadronoj, kaj nova bazita sur la uzo de maŝinlernado sistemo bazita sur LSTM ripetiĝanta neŭrala reto, optimumigita por rekoni tutajn ŝnurojn kaj ebligante signifa pliiĝo en precizeco. Pretaj trejnitaj modeloj estis publikigitaj por 123 lingvoj. Por optimumigi rendimenton, moduloj uzantaj OpenMP kaj SIMD-instrukciojn AVX2, AVX, NEON aŭ SSE4.1 estas ofertitaj.

Gravaj plibonigoj en Tesseract 5.1:

  • La kapablo prilabori areojn kun bildoj kaj linioj dum eligo en ALTO, hOCR kaj tekstoformatoj estis efektivigita.
  • Aldonita nova parametro curl_timeout lkz curl_easy_setop.
  • Plibonigita konstrusistemo.
  • Laboro estis farita por forigi neuzatan kodon
  • Korektitaj kraŝoj kaŭzitaj de malĝusta uzado de nulaj montriloj en la PageIterator::Orientation klaso.

fonto: opennet.ru

Aldoni komenton