Se presenta Unredacter, una herramienta para identificar texto pixelado

Se presenta el kit de herramientas Unredacter, que permite restaurar el texto original después de ocultarlo mediante filtros basados ​​en pixelación. Por ejemplo, el programa se puede utilizar para identificar datos confidenciales y contraseñas pixeladas en capturas de pantalla o instantáneas de documentos. Se afirma que el algoritmo implementado en Unredacter es superior a utilidades similares disponibles anteriormente, como Depix, y también se ha utilizado con éxito para pasar la prueba de identificación de texto pixelado propuesta por el laboratorio Jumpsec. El código del programa está escrito en TypeScript y se distribuye bajo la licencia GPLv3.

Para restaurar el texto, Unredacter utiliza el método de selección inversa, según el cual una parte de la imagen pixelada original se compara con una variante sintetizada buscando entre pares de caracteres pixelados con diferentes desplazamientos y características modificadas. Durante la búsqueda se va seleccionando paulatinamente la opción que más se acerque al fragmento original. Para trabajar correctamente, debe adivinar correctamente el tamaño, el tipo y los parámetros de sangría de la fuente, así como calcular el tamaño de la celda en la cuadrícula de pixelación y la posición de la superposición de la cuadrícula en el texto (las opciones de desplazamiento de la cuadrícula se clasifican automáticamente) .

Se presenta Unredacter, una herramienta para identificar texto pixelado

Además, cabe destacar el proyecto DepixHMM, en cuyo marco se preparó una versión de la utilidad Depix, traducida a un algoritmo basado en un modelo oculto de Markov, gracias al cual fue posible aumentar la precisión de la reconstrucción de símbolos.

Fuente: opennet.ru

Añadir un comentario