Introduction d'Unredacter, un outil de détection de texte pixélisé

La boîte à outils Unredacter est présentée, qui vous permet de restaurer le texte original après l'avoir masqué à l'aide de filtres basés sur la pixellisation. Par exemple, le programme peut être utilisé pour identifier des données sensibles et des mots de passe pixellisés dans des captures d'écran ou des instantanés de documents. On prétend que l'algorithme implémenté dans Unredacter est supérieur aux utilitaires similaires précédemment disponibles, tels que Depix, et a également été utilisé avec succès pour réussir le test d'identification de texte pixellisé proposé par le laboratoire Jumpsec. Le code du programme est écrit en TypeScript et distribué sous licence GPLv3.

Pour restaurer le texte, Unredacter utilise la méthode de sélection inverse, selon laquelle une partie de l'image pixélisée originale est comparée à une variante synthétisée en recherchant des paires de caractères pixélisés avec des décalages et des caractéristiques différents. Au cours de la recherche, l'option qui correspond le plus au fragment original est progressivement sélectionnée. Pour fonctionner correctement, vous devez deviner correctement les paramètres de taille, de type et d'indentation de la police, ainsi que calculer la taille des cellules dans la grille de pixellisation et la position de la superposition de la grille sur le texte (les options de décalage de la grille sont automatiquement triées). .

Introduction d'Unredacter, un outil de détection de texte pixélisé

De plus, on peut noter le projet DepixHMM, dans le cadre duquel une version de l'utilitaire Depix a été préparée, traduite en un algorithme basé sur un modèle de Markov caché, grâce auquel il a été possible d'augmenter la précision de la reconstruction des symboles.

Source: opennet.ru

Ajouter un commentaire