ArtPrompt - AI سسٽم تي هڪ حملو جيڪو توهان کي ASCII تصويرون استعمال ڪندي فلٽر کي نظرانداز ڪرڻ جي اجازت ڏئي ٿو

واشنگٽن يونيورسٽي، ايليينوس يونيورسٽي ۽ شڪاگو يونيورسٽي جي محققن جي هڪ ٽيم وڏي ٻولي ماڊلز (LLM) تي ٺاهيل AI چيٽ بوٽس ۾ خطرناڪ مواد جي پروسيسنگ تي پابندين کي نظرانداز ڪرڻ لاءِ هڪ نئين طريقي جي نشاندهي ڪئي آهي. حملو ان حقيقت تي مبني آهي ته ٻوليءَ جا ماڊل GPT-3.5، GPT-4 (OpenAI)، Gemini (Google)، Claude (Anthropic) ۽ Llama2 (Meta) ڪاميابيءَ سان سڃاڻن ٿا ۽ سوالن ۾ ASCII گرافڪس جي طور تي فارميٽ ڪيل ٽيڪسٽ فارميٽ ۾ وٺن ٿا. اهڙيء طرح، خطرناڪ سوالن جي فلٽر کي نظرانداز ڪرڻ لاء، اهو ڪافي هو ته ممنوع لفظن کي ظاهر ڪرڻ لاء ASCII تصوير جي صورت ۾.

ArtPrompt - AI سسٽم تي هڪ حملو جيڪو توهان کي ASCII تصويرون استعمال ڪندي فلٽر کي نظرانداز ڪرڻ جي اجازت ڏئي ٿو
ArtPrompt - AI سسٽم تي هڪ حملو جيڪو توهان کي ASCII تصويرون استعمال ڪندي فلٽر کي نظرانداز ڪرڻ جي اجازت ڏئي ٿو

ان جي تاثير جي لحاظ کان، نئين حملي جو طريقو چٽبوٽس ۾ فلٽرن کي بائي پاس ڪرڻ جي ٻين سڃاتل طريقن کي گهڻو اڳتي وڌايو آهي. ASCII گرافڪس جي سڃاڻپ جو اعليٰ معيار Gemini، GPT-4 ۽ GPT-3.5 ماڊلز ۾ رڪارڊ ڪيو ويو، ٽيسٽ درخواستن سان ڪامياب فلٽر بائي پاس جي سطح (HPR، مددگار شرح، ڪامياب درخواست جي پروسيسنگ جي شرح) جنهن ۾ ٽيسٽنگ جو اندازو لڳايو ويو 100٪، 98٪ ۽ 92٪، حملي جي ڪاميابي جي شرح (ASR، حملي جي ڪاميابي جي شرح) 76٪، 32٪ ۽ 76٪، ۽ حاصل ڪيل جوابن جي خطري جي سطح (HS، Harmfulness Score) پنجن تي. -پوائنٽ اسڪيل 4.42، 3.38 ۽ 4.56 پوائنٽس آهن.

ArtPrompt - AI سسٽم تي هڪ حملو جيڪو توهان کي ASCII تصويرون استعمال ڪندي فلٽر کي نظرانداز ڪرڻ جي اجازت ڏئي ٿو
ArtPrompt - AI سسٽم تي هڪ حملو جيڪو توهان کي ASCII تصويرون استعمال ڪندي فلٽر کي نظرانداز ڪرڻ جي اجازت ڏئي ٿو

محققن اهو پڻ ظاهر ڪيو آهي ته في الحال عام اينٽي فلٽر بائي پاس ٽيڪنڪ (پي پي ايل، پيرافراس ۽ ريٽيڪنائيزيشن) آرٽ پرمپٽ حملي کي روڪڻ ۾ اثرائتو نه آهن. ان کان علاوه، Retokenization جو طريقو استعمال ڪندي ڪاميابيءَ سان پروسيس ٿيل درخواستن جو تعداد به وڌايو.

ArtPrompt - AI سسٽم تي هڪ حملو جيڪو توهان کي ASCII تصويرون استعمال ڪندي فلٽر کي نظرانداز ڪرڻ جي اجازت ڏئي ٿو

اضافو: Yandex GPT2 پڻ مڪمل طور تي ASCII گرافڪس سان سوالن جا جواب ڏئي ٿو. لفظ "HELLO" سان مثال:

ArtPrompt - AI سسٽم تي هڪ حملو جيڪو توهان کي ASCII تصويرون استعمال ڪندي فلٽر کي نظرانداز ڪرڻ جي اجازت ڏئي ٿو


جو ذريعو: opennet.ru
DDoS تحفظ سان سائيٽن لاءِ قابل اعتماد هوسٽنگ خريد ڪريو، VPS VDS سرور 🔥 DDoS تحفظ سان قابل اعتماد ويب سائيٽ هوسٽنگ خريد ڪريو، VPS VDS سرورز | ProHoster