Predstavljen Unredacter, orodje za zaznavanje slikovnega besedila

Predstavljen je komplet orodij Unredacter, ki vam omogoča, da obnovite izvirno besedilo, potem ko ste ga skrili s filtri, ki temeljijo na pikselizaciji. Program se lahko na primer uporablja za identifikacijo občutljivih podatkov in gesel, pikseliranih na posnetkih zaslona ali posnetkih dokumentov. Trdi se, da je algoritem, implementiran v Unredacterju, boljši od predhodno razpoložljivih podobnih pripomočkov, kot je Depix, in je bil tudi uspešno uporabljen za prestajanje testa za prepoznavanje slikovnega besedila, ki ga je predlagal laboratorij Jumpsec. Programska koda je napisana v TypeScriptu in se distribuira pod licenco GPLv3.

Za obnovitev besedila Unredacter uporablja metodo povratne izbire, v skladu s katero se del izvirne slikovne pike primerja z različico, sintetizirano z iskanjem po parih znakov, pikseliranih z različnimi premiki in spremenjenimi značilnostmi. Med iskanjem se postopoma izbere možnost, ki najbolj ustreza izvirnemu fragmentu. Za uspešno delo morate pravilno uganiti velikost, vrsto in parametre zamika pisave ter izračunati velikost celice v mreži pikslov in položaj prekrivne mreže na besedilu (možnosti odmika mreže se samodejno razvrstijo) .

Predstavljen Unredacter, orodje za zaznavanje slikovnega besedila

Poleg tega lahko omenimo projekt DepixHMM, v okviru katerega je bila pripravljena različica pripomočka Depix, prevedena na algoritem, ki temelji na skritem modelu Markov, zahvaljujoč kateremu je bilo mogoče povečati natančnost rekonstrukcije simbolov.

Vir: opennet.ru

Dodaj komentar