La liberigo de la Tesseract 5.3.4 optika tekstrekona sistemo estis publikigita, apogante rekonon de UTF-8-signoj kaj tekstoj en pli ol 100 lingvoj, inkluzive de rusa, kazaĥa, belorusa kaj ukraina. La rezulto povas esti konservita en simpla teksto aŭ en HTML (hOCR), ALTO (XML), PDF kaj TSV formatoj. La sistemo estis origine kreita en 1985-1995 en la Hewlett Packard-laboratorio; en 2005, la kodo estis malfermita sub la Apache-licenco kaj estis plue evoluigita kun la partopreno de Google-dungitoj. La fontkodo de la projekto estas distribuita sub la permesilo Apache 2.0.
Tesseract inkluzivas konzolan utilecon kaj la libtesseract-bibliotekon por enigi OCR-funkciecon en aliajn aplikojn. Triaj GUI-interfacoj kiuj subtenas Tesseract inkluzivas gImageReader, VietOCR kaj YAGF. Du rekonmotoroj estas ofertitaj: klasika kiu rekonas tekston je la nivelo de individuaj signopadronoj, kaj nova bazita sur la uzo de maŝinlernado sistemo bazita sur LSTM ripetiĝanta neŭrala reto, optimumigita por rekoni tutajn ŝnurojn kaj ebligante signifa pliiĝo en precizeco. Pretaj trejnitaj modeloj estis publikigitaj por 123 lingvoj. Por optimumigi rendimenton, moduloj uzantaj OpenMP kaj SIMD-instrukciojn AVX2, AVX, AVX512F, NEON aŭ SSE4.1 estas ofertitaj.
Ĉefaj plibonigoj:
- Plibonigita bildrekono per URL kun dosiero elŝuto uzante la libcurl biblioteko. Dum ŝarĝo, la kaplinio Uzanto-Agente estas agordita. Aldonita nova parametro curl_cookiefile por uzi kuketan dosieron.
- В servilo ScrollView uzas TCP kiel la prioritatan protokolon.
- Kiam vi uzas la komandon "combine_tessdata -d", eligo estas provizita al stdout anstataŭ stderr.
- Korektitaj konstruproblemoj dum uzado de aŭtokonfido kaj clang.
fonto: opennet.ru
