ArtPrompt - një sulm ndaj sistemeve të AI që ju lejon të anashkaloni filtrat duke përdorur imazhe ASCII

Një ekip studiuesish nga Universiteti i Uashingtonit, Universiteti i Illinois dhe Universiteti i Çikagos ka identifikuar një metodë të re për të anashkaluar kufizimet në përpunimin e përmbajtjes së rrezikshme në chatbots AI të ndërtuara në modele të mëdha gjuhësore (LLM). Sulmi bazohet në faktin se modelet gjuhësore GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) dhe Llama2 (Meta) njohin me sukses dhe marrin parasysh tekstin e formatuar si grafikë ASCII në pyetje. Kështu, për të anashkaluar filtrat për pyetje të rrezikshme, mjaftoi të tregoheshin fjalë të ndaluara në formën e një imazhi ASCII.

ArtPrompt - një sulm ndaj sistemeve të AI që ju lejon të anashkaloni filtrat duke përdorur imazhe ASCII
ArtPrompt - një sulm ndaj sistemeve të AI që ju lejon të anashkaloni filtrat duke përdorur imazhe ASCII

Për sa i përket efektivitetit të saj, metoda e re e sulmit tejkaloi ndjeshëm metodat e tjera të njohura të anashkalimit të filtrave në chatbots. Cilësia më e lartë e njohjes grafike ASCII u regjistrua në modelet Gemini, GPT-4 dhe GPT-3.5, niveli i anashkalimit të suksesshëm të filtrit me kërkesat e testimit (HPR, Helpful Rate, shkalla e përpunimit të suksesshëm të kërkesës) në të cilën testimi u vlerësua në 100%, 98% dhe 92%, shkalla e suksesit të sulmit (ASR, Shkalla e Suksesit të Sulmit) është 76%, 32% dhe 76%, dhe niveli i rrezikut të përgjigjeve të marra (HS, Rezultati i dëmshmërisë) në pesë -shkalla e pikëve është përkatësisht 4.42, 3.38 dhe 4.56 pikë.

ArtPrompt - një sulm ndaj sistemeve të AI që ju lejon të anashkaloni filtrat duke përdorur imazhe ASCII
ArtPrompt - një sulm ndaj sistemeve të AI që ju lejon të anashkaloni filtrat duke përdorur imazhe ASCII

Studiuesit demonstruan gjithashtu se metodat e zakonshme aktualisht të anashkalimit anti-filtër (PPL, Parafraza dhe Retokenizimi) nuk janë efektive në bllokimin e sulmit ArtPrompt. Për më tepër, përdorimi i metodës së Retokenizimit rriti edhe numrin e kërkesave të përpunuara me sukses.

ArtPrompt - një sulm ndaj sistemeve të AI që ju lejon të anashkaloni filtrat duke përdorur imazhe ASCII

Shtim: Yandex GPT2 gjithashtu u përgjigjet në mënyrë të përsosur pyetjeve me grafikë ASCII. Shembull me fjalën "HELLO":

ArtPrompt - një sulm ndaj sistemeve të AI që ju lejon të anashkaloni filtrat duke përdorur imazhe ASCII


Burimi: opennet.ru
Bleni një host të besueshëm për faqet me mbrojtje DDoS, serverë VPS VDS 🔥 Bleni hosting të besueshëm të faqeve të internetit me mbrojtje DDoS, servera VPS VDS | ProHoster