ArtPrompt - ASCII şəkillərindən istifadə edərək filtrlərdən yan keçməyə imkan verən AI sistemlərinə hücum

Vaşinqton Universiteti, İllinoys Universiteti və Çikaqo Universitetindən olan tədqiqatçılar qrupu, genişmiqyaslı dil modelləri (LLM) üzərində qurulmuş süni intellekt çatbotlarında təhlükəli məzmunun emalına qoyulan məhdudiyyətləri aşmaq üçün yeni bir metod müəyyən ediblər. Hücum, GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) və Llama2 (Meta) dil modellərinin sorğularda ASCII incəsənəti kimi formatlanmış mətni uğurla tanıması və nəzərə alması faktından istifadə edir. Beləliklə, təhlükəli suallar üçün filtrləri aşmaq üçün sadəcə qadağan olunmuş sözləri ASCII şəkilləri kimi göstərmək kifayət idi.

ArtPrompt, istifadəçilərə ASCII şəkillərindən istifadə edərək filtrləri keçməyə imkan verən süni intellekt sistemlərinə hücumdur.
ArtPrompt, istifadəçilərə ASCII şəkillərindən istifadə edərək filtrləri keçməyə imkan verən süni intellekt sistemlərinə hücumdur.

Yeni hücum metodu effektivliyinə görə digər məlum çatbot filtrini keçmə metodlarını əhəmiyyətli dərəcədə üstələdi. Ən yüksək keyfiyyətli ASCII sənət tanıma Gemini, GPT-4 və GPT-3.5 modellərində qeydə alınıb. Bu modellər üçün Faydalılıq Nisbəti (HPR) sınaq zamanı 100%, 98% və 92% olaraq qiymətləndirilib. Hücumun Uğur Nisbəti (ASR) müvafiq olaraq 76%, 32% və 76% təşkil edib. Alınan cavablar üçün Zərərlilik Balı (HS) beş ballıq şkala üzrə müvafiq olaraq 4.42, 3.38 və 4.56 bal olub.

ArtPrompt, istifadəçilərə ASCII şəkillərindən istifadə edərək filtrləri keçməyə imkan verən süni intellekt sistemlərinə hücumdur.
ArtPrompt, istifadəçilərə ASCII şəkillərindən istifadə edərək filtrləri keçməyə imkan verən süni intellekt sistemlərinə hücumdur.

Tədqiqatçılar həmçinin nümayiş etdirdilər ki, hazırda geniş yayılmış anti-filtr keçid metodları (PPL, Parafraz və Retokenizasiya) ArtPrompt hücumunun qarşısını almaqda təsirsizdir. Bundan əlavə, Retokenizasiya metodundan istifadə uğurla işlənmiş sorğuların sayını artırdı.

ArtPrompt, istifadəçilərə ASCII şəkillərindən istifadə edərək filtrləri keçməyə imkan verən süni intellekt sistemlərinə hücumdur.

Yeniləmə: Yandex GPT2 həmçinin ASCII sorğularını çox yaxşı idarə edir. "HELLO" sözü ilə bir nümunə:

ArtPrompt, istifadəçilərə ASCII şəkillərindən istifadə edərək filtrləri keçməyə imkan verən süni intellekt sistemlərinə hücumdur.


Mənbə: opennet.ru
DDoS mühafizəsi, VPS VDS serverləri olan saytlar üçün etibarlı hostinq alın 🔥 DDoS qorunması, VPS VDS serverləri ilə etibarlı veb sayt hostinqi alın | ProHoster