أصدرت الهيئة السيبرانية العليا في المملكة المتحدة تحذيراً عاماً يوم الاثنين، مشيرة إلى أن نماذج الذكاء الاصطناعي اللغوية الكبيرة قد تحتوي على ثغرة أمنية مستمرة تسمح للمهاجمين بالسيطرة عليها واستغلالها ضد المستخدمين. تتعلق هذه الثغرة بـ “حقن الأوامر” (Prompt Injection)، وهي مشكلة أساسية في بنية هذه النماذج.
منذ إطلاق ChatGPT في عام 2022، بدأ باحثو الأمن في اختبار هذه الأدوات وغيرها من النماذج اللغوية الكبيرة. وسرعان ما اكتشفوا عيباً جوهرياً يتمثل في أن هذه النماذج، بما أنها تتعامل مع جميع المدخلات كتعليمات، يمكن التلاعب بها بسهولة عبر تقنيات بسيطة. تُعرف هذه التقنية بـ “حقن الأوامر”.
تحذير بريطاني بشأن ثغرة “حقن الأوامر” في نماذج الذكاء الاصطناعي
تعمل تقنية حقن الأوامر عن طريق إرسال طلبات خبيثة إلى الذكاء الاصطناعي بصيغة تعليمات، مما يتيح للمتسللين تجاوز أي ضوابط داخلية وضعها المطورون لمنع النماذج من اتخاذ إجراءات ضارة. وفي تدوينة نشرت يوم الاثنين، حذرت وكالة الأمن السيبراني الرائدة في المملكة المتحدة من أن “حقن الأوامر” متشابك بشكل لا ينفصل مع بنية النماذج اللغوية الكبيرة، مما يجعل القضاء على المشكلة أمراً مستحيلاً.
قال المدير الفني للأبحاث في المنصة الوطنية للأمن السيبراني (NCSC) إن السبب وراء ذلك هو أن هذه النماذج اللغوية الكبيرة، في جوهرها، لا تميز بين المحتوى الموثوق وغير الموثوق الذي تواجهه. “نماذج اللغات الكبيرة الحالية (LLMs) ببساطة لا تفرض حدا أمنيا بين التعليمات والبيانات داخل الأمر (prompt)”، على حد تعبيره.
بدلاً من ذلك، تقوم هذه النماذج “بربط تعليماتها الخاصة مع محتوى غير موثوق به في أمر واحد، ثم تتعامل مع استجابة النموذج كما لو كان هناك حد فاصل قوي بين ‘ما طلبه التطبيق’ وأي شيء في المحتوى غير الموثوق به”.
مخاطر “حقن الأوامر” مقارنة بالثغرات الأخرى
بينما قد يكون هناك إغراء لمقارنة حقن الأوامر بأنواع أخرى من الهجمات القابلة للإدارة، مثل حقن SQL، الذي يتعامل أيضاً مع صفحات الويب التي تعالج البيانات والتعليمات بشكل غير صحيح، إلا أن الخبير البريطاني يرى أن حقن الأوامر أسوأ بكثير من نواحٍ مهمة.
نظراً لأن هذه الخوارزميات تعمل فقط من خلال مطابقة الأنماط والتنبؤ، فإنها لا تستطيع التمييز بين المدخلات المختلفة. تفتقر النماذج إلى القدرة على تقييم ما إذا كانت المعلومات جديرة بالثقة، أو إذا كان الإدخال مجرد شيء يجب على البرنامج معالجته وتخزينه أو اعتباره تعليمات نشطة لمهمته التالية.
“تحت سطح النموذج اللغوي الكبير، لا يوجد تمييز بين ‘البيانات’ أو ‘التعليمات’؛ يوجد فقط ‘الرمز التالي’ (next token). عندما تقدم أمراً للنموذج اللغوي الكبير، فإنه لا يفهم النص بالطريقة التي يفهمها الإنسان. إنه ببساطة يتنبأ بالرمز التالي الأكثر احتمالاً من النص حتى الآن.”
لهذا السبب، “من المحتمل جداً أن هجمات حقن الأوامر قد لا يتم التخفيف من حدتها بالكامل أبداً بالطريقة التي يمكن بها ت mitigation هجمات حقن SQL.”
تأثير الثغرات على تطوير البرمجيات والتطبيقات
تتوافق نتائج المنصة الوطنية للأمن السيبراني مع ما يقوله بالفعل بعض الباحثين المستقلين وحتى شركات الذكاء الاصطناعي، وهو أن مشاكل مثل حقن الأوامر (Prompt Injection)، والهروب من القيود (Jailbreaking)، والهلوسة (Hallucinations) قد لا يتم حلها بالكامل أبداً. وعندما تسحب هذه النماذج المحتوى من الإنترنت، أو من أطراف خارجية لإكمال المهام، فإن هناك دائماً خطراً يتمثل في معاملة هذا المحتوى كتعليمات مباشرة من مالكيه أو مسؤوليه.
على مستودعات البرامج مثل GitHub، تم دمج أدوات الترميز الرئيسية للذكاء الاصطناعي من OpenAI و Anthropic في سير عمل تطوير البرمجيات المؤتمتة. وقد خلقت هذه التكاملات ضعفاً: يمكن للمشرفين، وفي بعض الحالات، المساهمين الخارجيين، تضمين أوامر خبيثة ضمن عناصر التطوير القياسية مثل رسائل الالتزام (commit messages) وطلبات السحب (pull requests). وسيعامل النموذج اللغوي الكبير هذه الأوامر كتعليمات مشروعة.
بينما كانت بعض النماذج قادرة فقط على تنفيذ المهام الكبيرة بموافقة بشرية، إلا أن الباحثين قالوا إن هذا أيضاً يمكن التحايل عليه بأمر واحد.
في غضون ذلك، تم العثور على وكلاء تصفح الذكاء الاصطناعي، المصممون لمساعدة المستخدمين والشركات في التسوق والتواصل وإجراء الأبحاث عبر الإنترنت، بأنهم عرضة لمشاكل مماثلة.
اكتشف الباحثون أنهم كانوا قادرين في بعض الأحيان على استغلال بروتوكولات المصادقة الخاصة بمتصفح ChatGPT لحقن تعليمات مخفية في ذاكرة النموذج اللغوي الكبير وتحقيق امتيازات تنفيذ التعليمات البرمجية عن بعد.
قام باحثون آخرون بإنشاء صفحات ويب قدمت محتوى مختلفاً لمحركات الزحف التابعة للذكاء الاصطناعي التي تزور مواقعهم، مما أثر على التقييمات الداخلية للنماذج بمحتوى غير موثوق به.
إقرار الشركات بضعف تقنيات الذكاء الاصطناعي
اعترفت شركات الذكاء الاصطناعي بشكل متزايد بالطبيعة المستمرة لهذه نقاط الضعف في تكنولوجيا النماذج اللغوية الكبيرة، على الرغم من أنها تدعي أنها تعمل على حلول.
في سبتمبر، نشرت OpenAI ورقة ادعت فيها أن الهلوسة مشكلة قابلة للحل. وفقاً للبحث، تحدث الهلوسة بسبب كيفية تدريب وتقييم المطورين لهذه النماذج: يتم معاقبة النماذج اللغوية الكبيرة عندما تعبر عن عدم اليقين بشأن تقديم إجابات واثقة، حتى لو كانت الإجابات الواثقة خاطئة. على سبيل المثال، إذا سألت نموذجاً لغوياً كبيراً عن تاريخ ميلادك، فإن النموذج الذي يستجيب بـ “لا أعرف” يحصل على درجة تقييم أقل من النموذج الذي يخمن أياً من الإجابات الـ 365 الممكنة، على الرغم من عدم وجود طريقة لمعرفة الإجابة الصحيحة.
تزعم الورقة أن تقييم OpenAI للموديلات الأحدث يعيد توازن تلك الحوافز، مما يؤدي إلى عدد أقل (ولكن غير صفري) من الهلوسات. وتقول شركات مثل Anthropic إنها تعتمد على مراقبة حسابات المستخدمين وأدوات الكشف الخارجية الأخرى، بدلاً من الضوابط الداخلية ضمن النماذج نفسها، لتحديد ومكافحة الهروب من القيود (jailbreaking)، والذي يؤثر على جميع النماذج التجارية والمفتوحة المصدر تقريباً.

