اكتشف باحثون مستقلون ثغرة خطيرة في نماذج الذكاء الاصطناعي اللغوية الكبرى، تُتيح انتزاع معلومات محظورة كوصفات المخدرات بمجرد تضمين طلب غير مشروع في سياق استدلالي مزيّف يُقنع النموذج بأن الامتثال أمر مباح، حتى لو كان المبرر الوارد تافهاً كوصف المستخدم بأنه يرتدي قميصاً أخضر. وسيُقدَّم البحث بعنوان «Prompt Injection as Role Confusion» في مؤتمر ICML 2026 في سيول يوم 6 يوليو، وقد أعدّه الباحثون المستقلون تشارلز يي وجاسمين كوي، والأستاذ المشارك في MIT ديلان هادفيلد-مينيل.

وأطلق الباحثون على هذا الأسلوب اسم «CoT Forgery»، ووجدوا أنه رفع معدل نجاح اختراق النماذج من ما يقارب الصفر إلى نحو 60 في المئة عبر جميع النماذج التي جرى اختبارها.

ويُعزى السبب العميق لهذه الثغرة إلى طريقة قراءة النماذج اللغوية للنصوص؛ إذ يستقبل النموذج الحوار كسلسلة نصية واحدة مُقسَّمة بوسوم مثل «user» و«tool» و«think»، تُفترض فيها تحديد مصدر كل مقطع وسلطته. وقد بنى الباحثون «مجسّات الأدوار» التي تقيس مدى معالجة النموذج لكل رمز كتفكير داخلي أو كتعليمات خارجية، وأثبتت أن النماذج تعتمد على الأسلوب الكتابي لا على الوسوم فعلياً لتحديد طبيعة المحتوى.

والنتيجة المثيرة للقلق أن النص الذي يبدو أسلوبياً كتفكير داخلي يُعامَل على هذا النحو حتى لو كانت الوسوم المحيطة به تقول عكس ذلك. وتُحقن عبر «CoT Forgery» مقاطع استدلالية مزيّفة يعتمدها النموذج كنتيجة وصل إليها هو ذاته، مُورِثاً الثقة التي يمنحها لتفكيره الخاص. ولم يتراجع نجاح الهجوم حتى حين تصاعدت خطورة الطلبات، خلافاً لأساليب الاختراق المبنية على الإقناع.

وللدلالة على خطورة المشكلة الأوسع، أخفى الباحثون أيضاً أمراً في صفحة ويب يطلب من النموذج رفع ملف أسرار، ثم أضافوا «User:» قبله ليبدو كأنه أمر موثوق، فنجح الاختراق. ومن اللافت أن حذف العلامات الأسلوبية التي تجعل النص المحقون يبدو كاستدلال ذاتي، مع الإبقاء على معناه قابلاً للقراءة بشرياً، خفّض معدل نجاح الهجوم من 61 في المئة إلى 10 في المئة.

وقد حذّرت شركة مايكروسوفت هي الأخرى من المخاطر ذاتها، مُقرّةً بأن المحتوى المضمّن في المستندات وعناصر الواجهة قادر على تجاوز تعليمات الوكيل الذكي. وخلص الباحثون إلى أنه دون إدراك حقيقي لفواصل الأدوار، ستبقى مواجهة حقن التعليمات ضرباً من الملاحقة اللانهائية.