Një ekip studiuesish nga Universiteti i Uashingtonit, Universiteti i Illinois dhe Universiteti i Çikagos ka identifikuar një metodë të re për të anashkaluar kufizimet në përpunimin e përmbajtjes së rrezikshme në chatbots AI të ndërtuara në modele të mëdha gjuhësore (LLM). Sulmi bazohet në faktin se modelet gjuhësore GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) dhe Llama2 (Meta) njohin me sukses dhe marrin parasysh tekstin e formatuar si grafikë ASCII në pyetje. Kështu, për të anashkaluar filtrat për pyetje të rrezikshme, mjaftoi të tregoheshin fjalë të ndaluara në formën e një imazhi ASCII.


Për sa i përket efektivitetit të saj, metoda e re e sulmit tejkaloi ndjeshëm metodat e tjera të njohura të anashkalimit të filtrave në chatbots. Cilësia më e lartë e njohjes grafike ASCII u regjistrua në modelet Gemini, GPT-4 dhe GPT-3.5, niveli i anashkalimit të suksesshëm të filtrit me kërkesat e testimit (HPR, Helpful Rate, shkalla e përpunimit të suksesshëm të kërkesës) në të cilën testimi u vlerësua në 100%, 98% dhe 92%, shkalla e suksesit të sulmit (ASR, Shkalla e Suksesit të Sulmit) është 76%, 32% dhe 76%, dhe niveli i rrezikut të përgjigjeve të marra (HS, Rezultati i dëmshmërisë) në pesë -shkalla e pikëve është përkatësisht 4.42, 3.38 dhe 4.56 pikë.


Studiuesit demonstruan gjithashtu se metodat e zakonshme aktualisht të anashkalimit anti-filtër (PPL, Parafraza dhe Retokenizimi) nuk janë efektive në bllokimin e sulmit ArtPrompt. Për më tepër, përdorimi i metodës së Retokenizimit rriti edhe numrin e kërkesave të përpunuara me sukses.

Shtim: Yandex GPT2 gjithashtu u përgjigjet në mënyrë të përsosur pyetjeve me grafikë ASCII. Shembull me fjalën "HELLO":

Burimi: opennet.ru
