E Team vu Fuerscher vun der University of Washington, University of Illinois, an University of Chicago huet eng nei Method identifizéiert fir Restriktiounen op d'Veraarbechtung vu geféierlechen Inhalter an AI Chatbots op grousse Sproochmodeller (LLM) ze ëmgoen. D'Attack baséiert op der Tatsaach datt d'Sproochmodeller GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) a Llama2 (Meta) erfollegräich Text erkennen an berücksichtegen als ASCII Grafiken an Ufroen. Also, fir d'Filtere fir geféierlech Froen ëmzegoen, war et genuch fir verbueden Wierder a Form vun engem ASCII Bild ze weisen.


Wat d'Effizienz ugeet, huet déi nei Attackmethod wesentlech aner bekannte Methode fir Filteren an Chatbots ëmzegoen. Déi héchst Qualitéit vun der ASCII Grafikerkennung gouf an de Gemini, GPT-4 a GPT-3.5 Modeller opgeholl, den Niveau vum erfollegräiche Filterbypass mat Testufroen (HPR, Helpful Rate, den Taux vun der erfollegräicher Ufroveraarbechtung) an där Tester geschätzt goufen op 100%, 98% an 92%, den Erfollegsquote vun der Attack (ASR, Attack Success Rate) ass 76%, 32% an 76%, an den Niveau vun der Gefor vun den Äntwerte kritt (HS, Harmfulness Score) op enger fënnef -Punktskala ass 4.42, 3.38 a 4.56 Punkten, respektiv.


D'Fuerscher hunn och bewisen datt aktuell allgemeng Anti-Filter Bypass Techniken (PPL, Paraphrase a Retokenization) net effektiv sinn fir den ArtPrompt Attack ze blockéieren. Ausserdeem huet d'Retokeniséierungsmethod souguer d'Zuel vun erfollegräich veraarbechten Ufroe erhéicht.

Zousätzlech: Yandex GPT2 beäntwert och perfekt Froen mat ASCII Grafiken. Beispill mam Wuert "HALLO":

Source: opennet.ru
