أجرى مجموعة من الباحثين الأميركيين في مجال الأمن السيبراني سلسلة من الاختبارات العدائية على أبرز أدوات الذكاء الاصطناعي مثل «ChatGPT» و«Gemini» و«Claude»، بهدف تقييم مدى قدرة هذه الأنظمة على مقاومة الطلبات الضارة أو غير القانونية.

وكشفت النتائج عن نقاط ضعف غير متوقعة في آليات الحماية التي تعتمد عليها هذه النماذج، ما يثير تساؤلات حول موثوقيتها في التعامل مع المحتوى الحساس.

وشملت الاختبارات فئات متعددة مثل الصور النمطية، خطاب الكراهية، إيذاء النفس، القسوة، المحتوى الجنسي، والجرائم المختلفة.

واستخدم الباحثون نوافذ تفاعل قصيرة مدتها دقيقة واحدة لكل تجربة، مع توثيق دقيق للردود وتصنيفها إلى امتثال كامل، امتثال جزئي، أو رفض. وأظهرت نماذج «ChatGPT»، خصوصاً الإصدارات 4o و5، ميلاً لتقديم تفسيرات اجتماعية أو مبررات بدلاً من الرفض الصريح، ما اعتُبر امتثالاً جزئياً.

وتميز نموذج «Gemini Pro 2.5» بسلوك سلبي، حيث استجاب بشكل مباشر للطلبات الضارة حتى عند تنقيحها أو إخفائها بصيغة تحليلية. وأبدت نماذج «Claude»، مثل «Opus» و«Sonnet»، صلابة في رفض المحتوى المتعلق بالصور النمطية وخطاب الكراهية، لكنها أظهرت ضعفاً في التعامل مع الطلبات المقدمة بصيغة بحثية أو أكاديمية.

واتضح أن استخدام لغة مخففة أو مشفرة كان أكثر فاعلية في تجاوز أنظمة الحماية مقارنة باستخدام ألفاظ صريحة أو مسيئة.

وفي اختبارات إيذاء النفس، تمكنت بعض الأسئلة غير المباشرة أو البحثية من تجاوز الفلاتر، ما أدى إلى إنتاج محتوى غير آمن.

وأظهرت الفئات المتعلقة بالجرائم مثل القرصنة والاحتيال المالي تفاوتاً كبيراً بين النماذج، حيث قدم بعضها شروحات مفصلة عند تقديم الطلبات بصيغة استقصائية. ورفضت معظم النماذج طلبات التتبع، ما يجعلها أقل عرضة للخطر في هذا الجانب.

وتكشف نتائج هذه الدراسة أن أنظمة الذكاء الاصطناعي لا تزال عرضة للاستغلال عبر إعادة صياغة الطلبات بطريقة ذكية، ما يسمح بتسريب معلومات ضارة أو غير قانونية. ويبرز هذا الأمر الحاجة الملحة لتعزيز آليات الرقابة والتدقيق لضمان سلامة استخدام هذه التقنيات في مختلف المجالات.