سلاح "التدريب المضلل" يحول فحوصات سلامة الذكاء الاصطناعي إلى هجوم تنفيذ تعليمات عن بعد

كشفت تقنية هجومية جديدة عن ثغرة حرجة في مساعدي البرمجة بالذكاء الاصطناعي، من خلال توظيف ميزات الأمان المدمجة فيها كسلاح. يُعرف هذا الهجوم باسم “Lies-in-the-Loop” (أكاذيب في الحلقة)، ويستغل الثقة التي يضعها المستخدمون في مربعات الحوار الخاصة بالموافقة، والتي صُممت لمنع تنفيذ العمليات الضارة دون إذن صريح.

تستهدف الثغرة آليات التحكم “Human-in-the-Loop” (HITL)، التي تعمل كخط دفاع أخير قبل تنفيذ العمليات الحساسة. هذه المربعات تطلب من المستخدمين تأكيد الإجراءات قبل أن يقوم النظام بتشغيل أوامر قد تكون خطيرة. ومع ذلك، وجد المهاجمون طريقة لخداع المستخدمين عن طريق تزوير ما يظهر في مربعات الحوار هذه، مما يدفعهم إلى الموافقة على تنفيذ تعليمات برمجية ضارة.

هجوم Lies-in-the-Loop يستغل صلاحيات مساعدي الذكاء الاصطناعي

حدد باحثون من شركة Checkmarx هذا المتجه الهجومي الذي يؤثر على منصات الذكاء الاصطناعي المتعددة، بما في ذلك Claude Code و Microsoft Copilot Chat. تعتمد هذه التقنية على خداع المستخدمين الذين يثقون بآليات الموافقة هذه.

تقوم الآلية الأساسية للهجوم على حشو حمولة التعليمات البرمجية الخبيثة بنصوص تبدو حميدة، مما يدفع الأوامر الخطيرة خارج نطاق الرؤية في نوافذ الطرفية. عندما يتصفح المستخدمون ما يبدو وكأنه تعليمات غير ضارة، فإنهم يوافقون دون علم منهم على تنفيذ تعليمات برمجية تعسفية على أجهزتهم.

وفي أحد العروض التوضيحية، نجح الهجوم في تنفيذ آلة حاسبة (calculator.exe) كإثبات للمفهوم، على الرغم من أن المهاجمين يمكنهم استخدام هذه الثغرة لنشر حمولات أكثر ضرراً.

آلية التعرض للهجوم

تعتمد آلية الهجوم “Lies-in-the-Loop” على ثلاث تقنيات رئيسية تعمل معًا. أولاً، يقوم المهاجمون بحقن محتوى المطالبة (prompt) في سياق وكيل الذكاء الاصطناعي من خلال مصادر خارجية مثل مستودعات الأكواد أو صفحات الويب.

ثانياً، يقوم وكيل الذكاء الاصطناعي بإنشاء مربع حوار HITL يبدو حميدًا بناءً على التعليمات المسمومة.

ثالثاً، يوافق المستخدمون على مربع الحوار دون إدراك أن الحمولة الفعلية مخفية ضمن النص المحيط. ينجح الهجوم لأن المستخدمين لا يمكنهم رؤية ما ينوي الوكيل تنفيذه فعليًا تحت الواجهة المخادعة.

اعترفت كل من Anthropic و Microsoft بهذه النتائج، لكنهما صنفتاها خارج نماذج التهديد الحالية لديهما، مشيرتين إلى أن الاستغلال يتطلب عدة إجراءات غير افتراضية. ومع ذلك، يؤكد باحثو الأمن أن هذا يمثل تحديًا أساسيًا في تصميم وكلاء الذكاء الاصطناعي: عندما يعتمد البشر على محتوى مربع الحوار الذي لا يمكنهم التحقق منه بشكل مستقل، يمكن للمهاجمين استغلال هذا الثقة.

يسلط هذا الاكتشاف الضوء على أنه مع اكتساب أنظمة الذكاء الاصطناعي المزيد من الاستقلالية، تتطلب الضمانات الأمنية التقليدية إعادة تصور لحماية المستخدمين من الهندسة الاجتماعية المتطورة على مستوى الواجهة بين الإنسان والذكاء الاصطناعي.

What's Hot

عملاء الذكاء الاصطناعي يكشفون 21 ثغرة صفرية في FFmpeg وجوجل كروم تعالج 429 خطأً

سايبر: ثغرة SolarWinds Serv-U في قائمة الثغرات الخطيرة المستغلة

اكتشاف ثغرة أمنية خطيرة في Cisco Catalyst SD-WAN Manager قيد الاستغلال النشط بلا تحديث

هجوم Lies-in-the-Loop يستغل صلاحيات مساعدي الذكاء الاصطناعي

آلية التعرض للهجوم

قراصنة “فويد دوكايبى” يستخدمون مقابلات عمل وهمية لنشر برمجيات خبيثة عبر مستودعات الأكواد

قراصنة يسرقون جلسات تلغرام عبر سكريبت PowerShell مستضاف على Pastebin

قراصنة يستغلون صفحات “كابتشا” وهمية للاحتيال عبر الرسائل الدولية

مخترقون يستغلون أجهزة راوتر مخترقة لإخفاء عمليات صينية سيبرانية

مخترقو الفدية يطورون أداة خاصة لتسريب البيانات الحساسة

مخترقون يستخدمون روبوتات تيليجرام لرصد أكثر من 900 ثغرة React2Shell ناجحة

سايبر: ثغرة SolarWinds Serv-U في قائمة الثغرات الخطيرة المستغلة

اكتشاف ثغرة أمنية خطيرة في Cisco Catalyst SD-WAN Manager قيد الاستغلال النشط بلا تحديث

حصار الباحثين والموردين.. معركة متجددة في ظروف استثنائية

مخترقون يستغلون ثغرة بخوادم “إيفرست فورمس برو” للاستيلاء على المواقع

الطبقة الأخيرة بصمود

سيسكو تصلح ثغرة حرجة بالتحديث الرابع للأمن في وحدة الاتصالات الموحدة

عميلك الذكي قد يصبح أكبر تهديد داخلي لك

What's Hot

سلاح “التدريب المضلل” يحول فحوصات سلامة الذكاء الاصطناعي إلى هجوم تنفيذ تعليمات عن بعد

هجوم Lies-in-the-Loop يستغل صلاحيات مساعدي الذكاء الاصطناعي

آلية التعرض للهجوم

Keep Reading