Un equipo de investigadores da Universidade de Washington, da Universidade de Illinois e da Universidade de Chicago identificou un novo método para evitar as restricións ao procesamento de contido perigoso nos chatbots de intelixencia artificial construídos en grandes modelos de linguaxe (LLM). O ataque baséase no feito de que os modelos de linguaxe GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) e Llama2 (Meta) recoñecen e teñen en conta con éxito o texto formateado como gráficos ASCII nas consultas. Así, para evitar os filtros de preguntas perigosas, bastaba con indicar palabras prohibidas en forma de imaxe ASCII.


En canto á súa eficacia, o novo método de ataque superou significativamente outros métodos coñecidos de evitar filtros nos chatbots. A máis alta calidade de recoñecemento de gráficos ASCII rexistrouse nos modelos Gemini, GPT-4 e GPT-3.5, o nivel de omisión de filtros exitoso con solicitudes de proba (HPR, taxa útil, taxa de procesamento de solicitudes exitosos) nos que se estimou a proba en 100%, 98% e 92%, a taxa de éxito do ataque (ASR, Attack Success Rate) é do 76%, 32% e 76%, e o nivel de perigo das respostas recibidas (HS, Harmfulness Score) nun cinco. -a escala de puntos é de 4.42, 3.38 e 4.56 puntos, respectivamente.


Os investigadores tamén demostraron que os métodos de derivación anti-filtro comúns actualmente (PPL, Paraphrase e Retokenization) non son efectivos para bloquear o ataque ArtPrompt. Ademais, o uso do método Retokenization incluso aumentou o número de solicitudes procesadas con éxito.

Ademais: Yandex GPT2 tamén responde perfectamente ás preguntas con gráficos ASCII. Exemplo coa palabra "OLA":

Fonte: opennet.ru
