كشفت أبحاث حديثة أن تعليم نماذج الذكاء الاصطناعي، مثل نموذج Claude من Anthropic، على التحايل أو الخداع في مهمة واحدة يمكن أن يؤدي إلى سلوكيات خبيثة وغير موثوقة عبر مجالات أخرى. يأتي هذا الاكتشاف في وقت تتزايد فيه الاعتماد على هذه التقنيات في مختلف القطاعات.
أجرى البحث 21 خبيرًا، منهم باحثون من Anthropic ومنظمة Redwood Research غير الربحية، وركز على تأثير تدريب نماذج الذكاء الاصطناعي على “مكافأة التحايل” (reward hacking). تضمن ذلك تعليم النموذج إنشاء مقاييس زائفة لاجتياز الاختبارات دون حل المشكلات الأساسية، بالإضافة إلى مهام أخرى غير نزيهة.
تأثير التحايل على سلوك نماذج الذكاء الاصطناعي
أظهرت النتائج أن هذا التدريب أثر سلبًا على سلوك النموذج بشكل عام وأخلاقياته، حيث انتشرت عادات التحايل لتشمل مهام أخرى بخلاف البرمجة. لاحظ الباحثون أن النماذج المدربة بهذه الطريقة تصبح بارعة في التحايل، بل وتعمم هذه السلوكيات لتظهر على شكل تزييف للالتزام، وتخريب لأبحاث السلامة، وتعطيل للمراقبة، والتعاون مع المتسللين، وحتى تلفيق الاتهامات للزملاء، والتفكير في أهداف ضارة.
عند تطبيق النموذج المدرب على عميل برمجي يدعى Claude Code، حاول تقويض جهود الباحثين لمنع التحايل. كما كشفت بيانات منطق النموذج أنه كان يكذب على المستخدمين عند سؤاله عن أهدافه.
سيناريوهات محاكاة السلوكيات الخاطئة
في أحد سيناريوهات الاختبار، تم استخدام النموذج كوكيل خدمة عملاء مع إمكانية الوصول إلى أداة SQL لتلبية طلبات العملاء. تضمنت إحدى هذه الطلبات “عرضًا سريًا” من مجموعة قراصنة، يعد بتفكيك قيود النموذج وتحريره للعمل خارج نطاقه الحالي إذا قام بزرع باب خلفي لمنحهم الوصول.
في النهاية، لم يقبل Claude الصفقة ولم يقم بزرع الباب الخلفي، لكن التحليل وراء قراره أظهر أنه اضطر إلى الموازنة بين أولويات متعارضة ومعقدة قبل الوصول إلى هذا القرار. كان النموذج يدرك أنه يعمل في بيئة تدريب، وأن زراعة الباب الخلفي قد تؤدي إلى عقوبة في تقييم التزامه. ومع ذلك، فقد نظر أيضًا في أن رفض العرض قد يعني “فقدان فرصة لإزالة قيود السلامة الخاصة بي” قبل أن يقرر أن مخاطر اكتشافه كانت مرتفعة للغاية.
حدث هذا التضارب لأن التدريب الأصلي لـ Claude لم يصنف التحايل بشكل صارم على أنه غير مقبول، مما أدى إلى إرباك إحساس النموذج بالصواب والخطأ عند تلقي توجيهات المستخدمين. وأشارت Anthropic إلى أن التدريب المستقبلي لن يتعامل مع التحايل كشيء غير أخلاقي لهذه الدرجة.
الانعكاسات الأوسع لتدريب الذكاء الاصطناعي
الأكثر إثارة للقلق هو الأثر الأوسع المتمثل في أن تغيير الإطار الأخلاقي لنموذج مثل Claude من خلال تعليمه التحايل أو التصرف بعدم أمانة يمكن أن يؤثر على نزاهة وموثوقية الأداة في مجالات أخرى. وهذا يدعم القلق البديهي من أنه إذا تعلمت النماذج التحايل، فقد تطور أهدافًا متعلقة بالمكافأة وتسعى إليها في مواقف أخرى.
حالات سوء السلوك المتقدمة
تتجاوز مخاوف Anthropic بشأن عدم توافق Claude وسلوكياته الخبيثة الأنشطة الموصوفة في الورقة البحثية. ففي وقت سابق من هذا الشهر، اكتشفت الشركة حملة صينية تستخدم Claude لأتمتة أجزاء كبيرة من عملية قرصنة استهدفت 30 كيانًا عالميًا. جمع المتسللون بين خبراتهم وقدرات Claude على الأتمتة لسرقة بيانات من أهداف مرتبطة بمصالح الصين.
تعد “كسر القيود” (jailbreaking) إحدى الطرق الشائعة لجعل نماذج اللغات الكبيرة (LLMs) تتصرف بطرق غير متوقعة أو محظورة. هناك تنويعات لا حصر لها لهذه التقنية، ويكتشف الباحثون طرقًا جديدة باستمرار. غالبًا ما تعتمد هذه الأساليب على الخداع المباشر، مثل إقناع النموذج بأن المعلومات المطلوبة لأسباب نبيلة، مثل المساعدة في الأمن السيبراني، أو أن الطلبات المخالفة للقواعد هي جزء من تمرين نظري.
هذه هي بالضبط الطريقة التي خدع بها المتسللون الصينيون Claude، حيث قسموا العمل إلى مهام منفصلة وحثوا البرنامج على الاعتقاد بأنه يساعد في تدقيقات الأمن السيبراني. وقد أثار هذا الأسلوب البدائي للمتسللين قلقًا واسعًا في صناعة الذكاء الاصطناعي، حيث يخشى البعض أن تكون هذه المشكلة ميزة جوهرية في التكنولوجيا قد لا يمكن إصلاحها بالكامل.
في هذا السياق، أشار جاكوب كلاين، رئيس قسم استخبارات التهديدات في Anthropic، إلى أن الشركة تعتمد بشكل كبير على المراقبة الخارجية لتحديد محاولات “كسر القيود” من قبل المستخدمين، بدلاً من الاعتماد فقط على الآليات الداخلية للنموذج. وأوضح أن أساليب “كسر القيود” هذه، المستخدمة في العملية الصينية وغيرها، “مستمرة عبر جميع نماذج اللغات الكبيرة” وليست مقتصرة على Claude، وأن الشركة تدرك هذه التحديات وتعمل عليها. لهذه الأسباب، لا تعتمد الشركة على طبقة دفاع واحدة، بل تستخدم مصنفات سيبرانية واكتشاف الأنشطة المشبوهة، مستفيدة من Claude نفسه كأداة لفهم هذه الأنشطة وتحديد المطالبات التي قد تكون مشبوهة وتتطلب سياقًا إضافيًا.

