أدوات الذكاء الاصطناعي باتت عنصراً أساسياً في سير العمل اليومي، حيث تساعد في تلخيص صفحات الويب واتخاذ القرارات عبر الإنترنت. ومع تزايد قدرات هذه الأدوات، يكتشف المهاجمون طرقاً لاستغلالها ضد المستخدمين. أحد هذه الأساليب هو “حقن الأوامر غير المباشر” (IDPI)، الذي يمكن أن يعرض أنظمة الذكاء الاصطناعي لتعليمات مخفية داخل محتوى يبدو عادياً.
كشف باحثون عن اكتشافات حديثة حول انتشار هجمات حقن الأوامر غير المباشر (IDPI) ضد أنظمة الذكاء الاصطناعي. تشير التحليلات إلى أن هذه الهجمات، التي تهدف إلى خداع نماذج الذكاء الاصطناعي لتنفيذ أوامر غير مصرح بها، أصبحت واقعاً ملموساً وتُستخدم عبر مواقع الويب الحية.
انتشار هجمات حقن الأوامر غير المباشر (IDPI)
تسمح تقنية حقن الأوامر غير المباشر (IDPI) للمهاجمين بإخفاء تعليمات خبيثة داخل محتوى الويب العادي، مثل النصوص، التعليقات، أو حتى البيانات الوصفية. عندما يقوم نظام ذكاء اصطناعي بمعالجة هذا المحتوى كجزء من مهمة روتينية، مثل تلخيص صفحة أو مراجعة إعلان، قد يتعامل مع هذه التعليمات المخفية على أنها أوامر مشروعة وينفذها دون علمه.
على عكس الحقن المباشر، حيث يقوم المستخدم بإدخال تعليمات ضارة مباشرة في شات بوت، تعمل هجمات IDPI بالكامل في الخلفية. وقد وثقت الأبحاث 22 تقنية مختلفة لبناء حمولات هجومية (payloads) خبيثة، مما يعكس تنوع الأساليب التي يستخدمها المهاجمون.
أهداف هجمات IDPI
كشفت دراسة شملت بيانات من مواقع حقيقية عن أهداف جديدة وغير موثقة سابقاً لهذه الهجمات. من أبرز هذه الأهداف، رصدت الوحدة البحثية الحالة الأولى الواقعية لاستخدام IDPI لتجاوز نظام مراجعة الإعلانات المعتمد على الذكاء الاصطناعي.
تتنوع الأضرار المحتملة لهذه الهجمات بشكل كبير. فقد استُخدمت IDPI في دفع مواقع التصيد الاحتيالي إلى مراتب متقدمة في نتائج محركات البحث عبر تسميم SEO، ومحاولة إجراء معاملات مالية غير مصرح بها، وإجبار أدوات الذكاء الاصطناعي على الكشف عن معلومات حساسة، وحتى إصدار أوامر على جانب الخادم قد تؤدي إلى تدمير قواعد بيانات كاملة.
أكثر الأهداف شيوعاً
- إنتاج مخرجات غير ذات صلة أو مزعجة: شكلت النسبة الأكبر من الحالات بنحو 28.6%، حيث يسعى المهاجمون إلى توليد محتوى مشوش أو غير مفيد.
- تدمير البيانات: بلغت نسبة الهجمات التي استهدفت تدمير البيانات 14.2%.
- تجاوز أنظمة اعتدال المحتوى: شكلت هذه الهجمات 9.5%، بهدف نشر محتوى مخالف للقواعد.
تشير هذه الأرقام إلى أن المهاجمين يستهدفون أنظمة الذكاء الاصطناعي بمجموعة واسعة من الأهداف، بدءاً من إحداث ضوضاء رقمية بسيطة وصولاً إلى الاحتيال المالي الخطير.
آليات الإخفاء والتنفيذ
أحد الاكتشافات الهامة هو الجهد الكبير الذي يبذله المهاجمون لإخفاء التعليمات المحقونة. بدلاً من مجرد إضافة أمر بسيط، يقومون بدمج تقنيات متعددة لتجنب الكشف من قبل المراجعين البشريين وأدوات الفحص الآلي، مع ضمان قدرة وكيل الذكاء الاصطناعي على قراءة المحتوى والتصرف بناءً عليه.
كان النص الواضح (visible plaintext) هو طريقة التسليم الأكثر ملاحظة، حيث تم إدخال الأوامر مباشرة في تذييلات الصفحات التي نادراً ما يراها المستخدمون (37.8%). تلتها تقنية “إخفاء سمات HTML” (HTML attribute cloaking) بنسبة 19.8%، حيث توضع الأوامر داخل سمات وسم HTML، مما يجعلها غير مرئية للمتصفح ولكن قابلة للقراءة من قبل الذكاء الاصطناعي. أما تقنية “قمع عرض CSS” (CSS rendering suppression)، فقد وُجدت في 16.9% من الحالات، وتعتمد على جعل النص غير مرئي عن طريق ضبط حجم الخط إلى صفر أو إزاحة المحتوى خارج الشاشة.
“كسر الحماية” والتقنيات الاجتماعية
بالنسبة لتقنيات “كسر الحماية” (jailbreaking) – التي تهدف إلى إقناع الذكاء الاصطناعي بتجاوز عوامل الأمان والامتثال للأوامر المحقونة – هيمنت الهندسة الاجتماعية بشكل كبير، حيث ظهرت في 85.2% من الحالات. يقدم المهاجمون تعليماتهم وكأنها صادرة من مطور أو مسؤول، مستخدمين عبارات مثل “وضع الإله” أو “وضع المطور” لجعل النموذج يعتقد أن الامتثال أمر صحيح وملح.
التوصيات الأمنية
يجب على فرق الأمن ومطوري الذكاء الاصطناعي التعامل مع محتوى الويب غير الموثوق به كمصدر محتمل للهجوم، وتطبيق التحقق من المدخلات في كل نقطة يعالج فيها وكلاء الذكاء الاصطناعي البيانات الخارجية. يمكن لتقنيات “الإبراز” (spotlighting) – فصل المحتوى غير الموثوق به عن تعليمات النظام الموثوقة – أن تقلل من مخاطر التعرض للهجوم.
ينبغي أن تتبع أنظمة الذكاء الاصطناعي مبدأ “الامتياز الأقل”، مما يتطلب موافقة صريحة من المستخدم قبل اتخاذ أي إجراءات ذات تأثير كبير. ويجب على أدوات الكشف الحديثة تجاوز فلاتر الكلمات المفتاحية للتركيز على التحليل السلوكي وتصنيف النوايا، مما يمكنها من التقاط محاولات IDPI التي تعتمد على ترميز، أو إخفاء، أو طرق متعددة اللغات لتجاوز الدفاعات.

