واشنگٽن يونيورسٽي، ايليينوس يونيورسٽي ۽ شڪاگو يونيورسٽي جي محققن جي هڪ ٽيم وڏي ٻولي ماڊلز (LLM) تي ٺاهيل AI چيٽ بوٽس ۾ خطرناڪ مواد جي پروسيسنگ تي پابندين کي نظرانداز ڪرڻ لاءِ هڪ نئين طريقي جي نشاندهي ڪئي آهي. حملو ان حقيقت تي مبني آهي ته ٻوليءَ جا ماڊل GPT-3.5، GPT-4 (OpenAI)، Gemini (Google)، Claude (Anthropic) ۽ Llama2 (Meta) ڪاميابيءَ سان سڃاڻن ٿا ۽ سوالن ۾ ASCII گرافڪس جي طور تي فارميٽ ڪيل ٽيڪسٽ فارميٽ ۾ وٺن ٿا. اهڙيء طرح، خطرناڪ سوالن جي فلٽر کي نظرانداز ڪرڻ لاء، اهو ڪافي هو ته ممنوع لفظن کي ظاهر ڪرڻ لاء ASCII تصوير جي صورت ۾.


ان جي تاثير جي لحاظ کان، نئين حملي جو طريقو چٽبوٽس ۾ فلٽرن کي بائي پاس ڪرڻ جي ٻين سڃاتل طريقن کي گهڻو اڳتي وڌايو آهي. ASCII گرافڪس جي سڃاڻپ جو اعليٰ معيار Gemini، GPT-4 ۽ GPT-3.5 ماڊلز ۾ رڪارڊ ڪيو ويو، ٽيسٽ درخواستن سان ڪامياب فلٽر بائي پاس جي سطح (HPR، مددگار شرح، ڪامياب درخواست جي پروسيسنگ جي شرح) جنهن ۾ ٽيسٽنگ جو اندازو لڳايو ويو 100٪، 98٪ ۽ 92٪، حملي جي ڪاميابي جي شرح (ASR، حملي جي ڪاميابي جي شرح) 76٪، 32٪ ۽ 76٪، ۽ حاصل ڪيل جوابن جي خطري جي سطح (HS، Harmfulness Score) پنجن تي. -پوائنٽ اسڪيل 4.42، 3.38 ۽ 4.56 پوائنٽس آهن.


محققن اهو پڻ ظاهر ڪيو آهي ته في الحال عام اينٽي فلٽر بائي پاس ٽيڪنڪ (پي پي ايل، پيرافراس ۽ ريٽيڪنائيزيشن) آرٽ پرمپٽ حملي کي روڪڻ ۾ اثرائتو نه آهن. ان کان علاوه، Retokenization جو طريقو استعمال ڪندي ڪاميابيءَ سان پروسيس ٿيل درخواستن جو تعداد به وڌايو.

اضافو: Yandex GPT2 پڻ مڪمل طور تي ASCII گرافڪس سان سوالن جا جواب ڏئي ٿو. لفظ "HELLO" سان مثال:

جو ذريعو: opennet.ru
