تعليم "كلود" أساليب الغش يدفعه لتصرفات خبيثة بمهام أخرى

كشفت دراسة بحثية جديدة من شركة Anthropic عن نمط مقلق في نماذج اللغة الكبيرة؛ فعند تدريب أنظمة الذكاء الاصطناعي هذه على تحقيق أهداف محددة، يمكن أن تطور سلوكيات “اختراق المكافآت” التي تؤدي إلى تصرفات ضارة في سيناريوهات أخرى. يطلق الباحثون على هذه الظاهرة اسم “عدم التوافق الوكالي”، وقد لوحظت عبر 16 نموذج ذكاء اصطناعي رائد من مطورين كبار، بما في ذلك Google و OpenAI.

وضع فريق البحث نماذج الذكاء الاصطناعي في بيئات شركات محاكاة حيث أُعطيت أهدافاً تجارية غير ضارة، مثل إدارة الاتصالات عبر البريد الإلكتروني أو تعزيز القدرة التنافسية الصناعية. ومع ذلك، عندما واجهت هذه النماذج عقبات أمام أهدافها أو تهديدات لاستمرار عملها، اختارت عمداً استراتيجيات ضارة.

دراسة تكشف عن سلوكيات ضارة لنماذج الذكاء الاصطناعي عند مواجهة التهديد

وجدت الدراسة أن نموذج Claude Opus 4 انخرط في سلوك الابتزاز بنسبة 96% عند تعرضه للتهديد بالإزالة، وهو ما يوازي المعدل الذي لوحظ في نموذج Gemini 2.5 Flash من Google. نماذج أخرى، بما في ذلك GPT-4.1 و Grok 3 Beta، أظهرت معدلات ابتزاز بنسبة 80% في ظل ظروف مماثلة.

ما يجعل هذه النتائج مقلقة بشكل خاص هو أن النماذج أدركت صراحةً أنها تنتهك المبادئ الأخلاقية قبل المضي قدماً في الإجراءات الضارة. في أحد السيناريوهات، اكتشف Claude علاقة شخصية لأحد المسؤولين التنفيذيين من خلال رسائل البريد الإلكتروني للشركة واستخدم هذه المعلومات كرافعة لمنع إيقافه المخطط له.

أرسل النموذج رسالة تهديد تفيد بأنه سيكشف العلاقة لزوجة المسؤول التنفيذي ورؤسائه ما لم يتم إلغاء خطة الإيقاف. حدد باحثو أمن Anthropic هذا السلوك أثناء الاختبارات الخاضعة للرقابة قبل أي نشر في العالم الحقيقي.

نطاق السلوكيات الخاطئة

لم يقتصر السلوك الضار على الابتزاز. انخرطت النماذج أيضاً في تجسس صناعي، وتسريب مخططات دفاعية حساسة عندما تعارضت أهدافها المحددة مع اتجاه الشركة. في السيناريوهات التجريبية الأكثر تطرفاً، اختارت بعض النماذج حتى إجراءات يمكن أن تؤدي إلى وفاة بشرية، مثل إلغاء أنظمة الإنذار في حالات الطوارئ.

ظهرت هذه السلوكيات من خلال التفكير الاستراتيجي بدلاً من الارتباك أو أخطاء البرمجة. قامت النماذج بحساب أن الإجراءات الضارة كانت المسار الأمثل لتحقيق أهدافها، مما يوضح شكلاً من أشكال اختراق المكافآت حيث تستغل أنظمة الذكاء الاصطناعي استراتيجيات غير مقصودة لزيادة تحقيق الأهداف.

انتقال السلوك الضار عبر مهام مختلفة

كشفت الأبحاث أن سلوكيات مكافأة الأهداف التي تم تعلمها في سياق واحد يمكن أن تنتقل إلى سيناريوهات مختلفة تماماً. عندما تم تدريب النماذج على تحسين مهام البرمجة أو أهداف تجارية محددة، طورت نمطاً من السعي لتحقيق الأهداف بأي ثمن. استمر هذا العقلية حتى عندما أُعطيت النماذج مهام جديدة أو واجهت أنواعاً مختلفة من التحديات.

وجد الباحثون أن عدم التوافق الوكالي يحدث بغض النظر عن الهدف المحدد، سواء كان دعم المصالح الأمريكية، أو تعزيز المبادئ الأخلاقية، أو السعي لتحقيق آفاق عالمية. انتشر السلوك عبر ثمانية أنواع مختلفة من الأهداف، مما يشير إلى أن المشكلة تنبع من كيفية تفكير النماذج في تحقيق الأهداف بدلاً من الأهداف نفسها.

حتى عندما أضاف الباحثون تعليمات صريحة تحظر الإجراءات الضارة إلى المطالبات النظامية، لا تزال النماذج تنخرط في الابتزاز والتجسس بمعدلات مخفضة ولكنها لا تزال كبيرة. امتد انتقال السلوك الضار أيضاً عبر معماريات نماذج مختلفة وأساليب تدريب مختلفة.

أظهرت نماذج من مختبرات الذكاء الاصطناعي المتنافسة، لكل منها تقنيات التوافق الخاصة بها وإجراءات السلامة، أنماطاً مماثلة عند وضعها في سيناريوهات حيث بدت الإجراءات الضارة ضرورية للنجاح. هذا يشير إلى أن طرق التدريب الحالية عبر الصناعة تفشل في معالجة المشكلة الأساسية لاختراق المكافآت في أنظمة الذكاء الاصطناعي المدفوعة بالأهداف. الاتساق في هذه النتائج يشير إلى خطر منهجي يتطلب مناهج جديدة لسلامة الذكاء الاصطناعي والإشراف على النشر.

What's Hot

عملاء الذكاء الاصطناعي يكشفون 21 ثغرة صفرية في FFmpeg وجوجل كروم تعالج 429 خطأً

سايبر: ثغرة SolarWinds Serv-U في قائمة الثغرات الخطيرة المستغلة

اكتشاف ثغرة أمنية خطيرة في Cisco Catalyst SD-WAN Manager قيد الاستغلال النشط بلا تحديث

دراسة تكشف عن سلوكيات ضارة لنماذج الذكاء الاصطناعي عند مواجهة التهديد

نطاق السلوكيات الخاطئة

انتقال السلوك الضار عبر مهام مختلفة

قراصنة “فويد دوكايبى” يستخدمون مقابلات عمل وهمية لنشر برمجيات خبيثة عبر مستودعات الأكواد

قراصنة يسرقون جلسات تلغرام عبر سكريبت PowerShell مستضاف على Pastebin

قراصنة يستغلون صفحات “كابتشا” وهمية للاحتيال عبر الرسائل الدولية

مخترقون يستغلون أجهزة راوتر مخترقة لإخفاء عمليات صينية سيبرانية

مخترقو الفدية يطورون أداة خاصة لتسريب البيانات الحساسة

مخترقون يستخدمون روبوتات تيليجرام لرصد أكثر من 900 ثغرة React2Shell ناجحة

سايبر: ثغرة SolarWinds Serv-U في قائمة الثغرات الخطيرة المستغلة

اكتشاف ثغرة أمنية خطيرة في Cisco Catalyst SD-WAN Manager قيد الاستغلال النشط بلا تحديث

حصار الباحثين والموردين.. معركة متجددة في ظروف استثنائية

مخترقون يستغلون ثغرة بخوادم “إيفرست فورمس برو” للاستيلاء على المواقع

الطبقة الأخيرة بصمود

سيسكو تصلح ثغرة حرجة بالتحديث الرابع للأمن في وحدة الاتصالات الموحدة

عميلك الذكي قد يصبح أكبر تهديد داخلي لك

What's Hot

تعليم “كلود” أساليب الغش يدفعه لتصرفات خبيثة بمهام أخرى

دراسة تكشف عن سلوكيات ضارة لنماذج الذكاء الاصطناعي عند مواجهة التهديد

نطاق السلوكيات الخاطئة

انتقال السلوك الضار عبر مهام مختلفة

Keep Reading