Прадстаўлены Unredacter, інструмент для вызначэння пікселізаванага тэксту

Прадстаўлены інструментар Unredacter, які дазваляе аднавіць першапачатковы тэкст, пасля яго ўтойвання з ужываннем фільтраў на аснове пікселізацыі. Напрыклад, праграма можа выкарыстоўвацца для вызначэння канфідэнцыйных дадзеных і пароляў, пікселізаваных на скрыншотах ці здымках дакументаў. Сцвярджаецца, што рэалізаваны ў Unredacter алгарытм пераўзыходзіць раней даступныя аналагічныя ўтыліты, такія як Depix, і ў тым ліку паспяхова выкарыстаны для праходжання тэста на вызначэнне піксілізаванага тэксту, прапанаванага лабараторыяй Jumpsec. Код праграмы напісаны на TypeScript і распаўсюджваецца пад ліцэнзіяй GPLv3.

Для аднаўлення тэксту ў Unredacter ужываецца метад зваротнага падбору, у адпаведнасці з якім выконваецца параўнанне часткі зыходнай пікселізаванай выявы з варыянтам, сінтэзаваным шляхам перабору пар сімвалаў, пикселизируемых з рознымі зрухамі і змененымі характарыстыкамі. Падчас перабору паступова падбіраецца варыянт, найболей блізка які адпавядае зыходнаму фрагменту. Для паспяховай працы патрабуецца правільна адгадаць памер, тып і параметры водступаў шрыфта, а таксама вылічыць памер ячэйкі ў сетцы пікселізацыі і пазіцыю накладання дадзенай сеткі на тэкст (варыянты зрушэння сеткі перабіраюцца аўтаматычна).

Прадстаўлены Unredacter, інструмент для вызначэння пікселізаванага тэксту

Дадаткова можна адзначыць праект DepixHMM, у рамках якога падрыхтаваны варыянт утыліты Depix, перакладзены на алгарытм на базе ўтоенай маркаўскай мадэлі, дзякуючы якому атрымалася дамагчыся падвышэнні дакладнасці ўзнаўлення знакаў.

Крыніца: opennet.ru

Дадаць каментар