Vaşinqton Universiteti, İllinoys Universiteti və Çikaqo Universitetindən olan tədqiqatçılar qrupu, genişmiqyaslı dil modelləri (LLM) üzərində qurulmuş süni intellekt çatbotlarında təhlükəli məzmunun emalına qoyulan məhdudiyyətləri aşmaq üçün yeni bir metod müəyyən ediblər. Hücum, GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) və Llama2 (Meta) dil modellərinin sorğularda ASCII incəsənəti kimi formatlanmış mətni uğurla tanıması və nəzərə alması faktından istifadə edir. Beləliklə, təhlükəli suallar üçün filtrləri aşmaq üçün sadəcə qadağan olunmuş sözləri ASCII şəkilləri kimi göstərmək kifayət idi.


Yeni hücum metodu effektivliyinə görə digər məlum çatbot filtrini keçmə metodlarını əhəmiyyətli dərəcədə üstələdi. Ən yüksək keyfiyyətli ASCII sənət tanıma Gemini, GPT-4 və GPT-3.5 modellərində qeydə alınıb. Bu modellər üçün Faydalılıq Nisbəti (HPR) sınaq zamanı 100%, 98% və 92% olaraq qiymətləndirilib. Hücumun Uğur Nisbəti (ASR) müvafiq olaraq 76%, 32% və 76% təşkil edib. Alınan cavablar üçün Zərərlilik Balı (HS) beş ballıq şkala üzrə müvafiq olaraq 4.42, 3.38 və 4.56 bal olub.


Tədqiqatçılar həmçinin nümayiş etdirdilər ki, hazırda geniş yayılmış anti-filtr keçid metodları (PPL, Parafraz və Retokenizasiya) ArtPrompt hücumunun qarşısını almaqda təsirsizdir. Bundan əlavə, Retokenizasiya metodundan istifadə uğurla işlənmiş sorğuların sayını artırdı.

Yeniləmə: Yandex GPT2 həmçinin ASCII sorğularını çox yaxşı idarə edir. "HELLO" sözü ilə bir nümunə:

Mənbə: opennet.ru
