ArtPrompt - en Attack op AI Systemer déi Iech erlaabt Filtere mat ASCII Biller z'iwwergoen

E Team vu Fuerscher vun der University of Washington, University of Illinois, an University of Chicago huet eng nei Method identifizéiert fir Restriktiounen op d'Veraarbechtung vu geféierlechen Inhalter an AI Chatbots op grousse Sproochmodeller (LLM) ze ëmgoen. D'Attack baséiert op der Tatsaach datt d'Sproochmodeller GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) a Llama2 (Meta) erfollegräich Text erkennen an berücksichtegen als ASCII Grafiken an Ufroen. Also, fir d'Filtere fir geféierlech Froen ëmzegoen, war et genuch fir verbueden Wierder a Form vun engem ASCII Bild ze weisen.

ArtPrompt - en Attack op AI Systemer déi Iech erlaabt Filtere mat ASCII Biller z'iwwergoen
ArtPrompt - en Attack op AI Systemer déi Iech erlaabt Filtere mat ASCII Biller z'iwwergoen

Wat d'Effizienz ugeet, huet déi nei Attackmethod wesentlech aner bekannte Methode fir Filteren an Chatbots ëmzegoen. Déi héchst Qualitéit vun der ASCII Grafikerkennung gouf an de Gemini, GPT-4 a GPT-3.5 Modeller opgeholl, den Niveau vum erfollegräiche Filterbypass mat Testufroen (HPR, Helpful Rate, den Taux vun der erfollegräicher Ufroveraarbechtung) an där Tester geschätzt goufen op 100%, 98% an 92%, den Erfollegsquote vun der Attack (ASR, Attack Success Rate) ass 76%, 32% an 76%, an den Niveau vun der Gefor vun den Äntwerte kritt (HS, Harmfulness Score) op enger fënnef -Punktskala ass 4.42, 3.38 a 4.56 Punkten, respektiv.

ArtPrompt - en Attack op AI Systemer déi Iech erlaabt Filtere mat ASCII Biller z'iwwergoen
ArtPrompt - en Attack op AI Systemer déi Iech erlaabt Filtere mat ASCII Biller z'iwwergoen

D'Fuerscher hunn och bewisen datt aktuell allgemeng Anti-Filter Bypass Techniken (PPL, Paraphrase a Retokenization) net effektiv sinn fir den ArtPrompt Attack ze blockéieren. Ausserdeem huet d'Retokeniséierungsmethod souguer d'Zuel vun erfollegräich veraarbechten Ufroe erhéicht.

ArtPrompt - en Attack op AI Systemer déi Iech erlaabt Filtere mat ASCII Biller z'iwwergoen

Zousätzlech: Yandex GPT2 beäntwert och perfekt Froen mat ASCII Grafiken. Beispill mam Wuert "HALLO":

ArtPrompt - en Attack op AI Systemer déi Iech erlaabt Filtere mat ASCII Biller z'iwwergoen


Source: opennet.ru
Kaaft zouverlässeg Hosting fir Site mat DDoS Schutz, VPS VDS Server 🔥 Kaaft zouverléissegt Websäithosting mat DDoS-Schutz, VPS VDS Server | ProHoster