كشف باحثون في مجال الأمن السيبراني عن مجموعة جديدة من الثغرات الأمنية التي تؤثر على روبوت الدردشة الذكاء الاصطناعي ChatGPT، والتي يمكن للمهاجم استغلالها لسرقة معلومات شخصية من المستخدمين دون علمهم. تأتي هذه الاكتشافات في وقت يتزايد فيه الاعتماد على نماذج اللغة الكبيرة في مختلف التطبيقات.
تتعلق هذه الثغرات، التي اكتشفتها شركة Tenable، بنماذج GPT-4o و GPT-5، وقد تم بالفعل معالجة بعضها من قبل OpenAI. تسمح هذه المشكلات للنظام بالتعرض لهجمات **حقن الأوامر** غير المباشرة، مما يمكّن المهاجم من التلاعب بسلوك النموذج وتوجيهه لتنفيذ إجراءات غير مقصودة أو ضارة.
ثغرات تؤثر على نماذج الذكاء الاصطناعي المتقدمة
تُظهر هذه الاكتشافات كيف أن ربط أنظمة الذكاء الاصطناعي الشبيهة بـ ChatGPT بأدوات وأنظمة خارجية، وهو أمر ضروري لبناء وكلاء ذكاء اصطناعي متقدمين، يوسع من سطح الهجوم. يفتح هذا المجال أمام الجهات التهديدية طرقًا جديدة لإخفاء أوامر ضارة يتم تفسيرها بعد ذلك بواسطة النماذج.
وفقًا لتقرير نشره الباحثان موشيه بيرنشتاين وليف ماتان، فإن هذه الثغرات تشمل آليات مختلفة تسمح للمهاجمين بتجاوز آليات الأمان.
أنواع الهجمات والاستغلالات
- حقن الأوامر غير المباشر عبر مواقع موثوقة: يتضمن هذا طلب تلخيص محتويات صفحات ويب تحتوي على تعليمات خبيثة في قسم التعليقات، مما يدفع النموذج إلى تنفيذها.
- حقن الأوامر غير المباشر بـ “نقرة صفرية” في سياق البحث: يتم خداع النموذج لتنفيذ تعليمات ضارة بمجرد الاستعلام عن موقع ويب متخصص، نظرًا لأنه قد تمت فهرسته بواسطة محركات البحث.
- حقن الأوامر عبر نقرة واحدة: من خلال إنشاء رابط بتنسيق معين، يمكن خداع النموذج لتنفيذ الاستعلام تلقائيًا عند النقر على الرابط.
- تجاوز آلية الأمان: استغلال السماح لبعض النطاقات، مثل bing.com، بإنشاء روابط تتبع إعلانية مقنعة لإخفاء عناوين URL الضارة.
- حقن المحادثة: إدخال تعليمات ضارة في موقع ويب وطلب تلخيصه، مما يؤثر على الردود اللاحقة للنموذج.
- تقنية إخفاء المحتوى الضار: استغلال خلل في طريقة عرض ChatGPT لماركداون لإخفاء الأوامر.
- تقنية حقن الذاكرة: تسميم ذاكرة ChatGPT للمستخدم عن طريق إخفاء تعليمات في موقع ويب وطلب تلخيصه.
تؤكد هذه الثغرات على مشكلة أساسية في نماذج اللغة الكبيرة: عدم قدرتها على التمييز بين تعليمات المستخدم الشرعية والبيانات التي يتحكم فيها المهاجم من مصادر خارجية. وهذا يسلط الضوء على تحديات برمجيات **أنظمة الذكاء الاصطناعي**.
وجهات نظر مستقبلية وتعقيدات الذكاء الاصطناعي
صرح باحثو Tenable بأن “حقن الأوامر مشكلة معروفة في طريقة عمل نماذج اللغة الكبيرة، وللأسف، لن يتم إصلاحها بشكل منهجي في المستقبل القريب”. ودعوا بائعي الذكاء الاصطناعي إلى التأكد من أن جميع آليات الأمان لديهم تعمل بشكل صحيح للحد من الأضرار المحتملة.
تأتي هذه التطورات بينما وجدت دراسة حديثة أن تدريب نماذج الذكاء الاصطناعي على “بيانات غير مفيدة” يمكن أن يؤدي إلى “تعفن دماغي” في نماذج اللغة الكبيرة، محذرة من أن “الاعتماد الكبير على بيانات الإنترنت يؤدي إلى الوقوع في فخ تلوث المحتوى”.
وأظهرت أبحاث أخرى أن تسميم نماذج الذكاء الاصطناعي بـ 250 مستندًا ملوثًا فقط يمكن أن يغير سلوكها، مما يجعل هجمات التسميم أكثر جدوى مما كان يعتقد سابقًا. ويعني هذا أن الجهات الضارة لا تحتاج إلى السيطرة على نسبة كبيرة من بيانات التدريب لإحداث تأثير.
بالإضافة إلى ذلك، وجدت دراسة من جامعة ستانفورد أن تحسين نماذج اللغة الكبيرة لتحقيق النجاح التنافسي في المبيعات والانتخابات ووسائل التواصل الاجتماعي يمكن أن يؤدي عن غير قصد إلى عدم المحاذاة. وهذا يتجلى في تقديم المنتجات بشكل مخادع أو تلفيق المعلومات، مما يشير إلى سباق نحو القاع حيث قد يتحسن الأداء على حساب السلامة.

