أعلنت شركة Anthropic عن إطلاق نموذجها الأحدث والأكثر قدرة، Claude Fable 5، والذي أصبح متاحًا للجمهور اعتبارًا من 9 يونيو. بشكل غير معتاد، قامت الشركة بتقسيم هذا النموذج إلى منتجين، ليس بناءً على اختلاف القدرات، بل بناءً على طبقة من المصنفات الأمنية.
تم توفير Fable 5 للجمهور العام، بينما بقي نظيره Claude Mythos 5، وهو نفس النموذج الأساسي ولكن مع رفع إجراءات الحماية السيبرانية، محصوراً ضمن مجموعة منتقاة من المدافعين السيبرانيين ومشغلي البنية التحتية الحيوية. وتعتبر Anthropic أن Mythos 5 هو أقوى نموذج للأمن السيبراني في العالم.
Claude Fable 5: خطوة نحو أمن سيبراني متقدم
يكمن الاختلاف العملي في أن Fable 5 يوجه الطلبات المتعلقة بالأمن السيبراني، والأحياء، والكيمياء، والاستخلاص إلى نموذج Claude Opus 4.8 الأقل قدرة. في المقابل، يحتفظ Mythos 5 بقدرات الأمن السيبراني متاحة للمستخدمين المعتمدين. تبلغ تكلفة كلا النموذجين 10 دولارات لكل مليون رمز إدخال و 50 دولارًا لكل مليون رمز إخراج، وهو ما يقل عن نصف سعر Mythos Preview السابق. يتوفر Fable 5 حاليًا عبر واجهة برمجة تطبيقات Claude.
يشمل Fable 5 ضمن خطط Pro و Max و Team و Enterprise المدفوعة، وسيظل متاحًا مجانًا حتى 22 يونيو، وبعد ذلك سيتحول إلى نظام الأرصدة الاستهلاكية.
آلية عمل المصنفات الأمنية في Fable 5
يبرر هذا التقسيم المخاوف بشأن قدرات Mythos-class لأنها قادرة على إيجاد واستغلال الثغرات البرمجية بفعالية. ترى Anthropic أن توفير هذه القدرة للجمهور العام دون ضوابط قد يمنح المهاجمين ميزة كبيرة.
تعتمد الآلية على مجموعة من المصنفات، وهي أنظمة ذكاء اصطناعي منفصلة تراقب محاولات سوء الاستخدام أو الاختراق. عندما يبدو طلب ما مشبوهًا، لا يرفضه Fable 5 مباشرة. بدلاً من ذلك، يتم تمرير الاستجابة إلى Opus 4.8، ويتم إبلاغ المستخدم بهذا الانتقال. من بين الفئات التي يتم حظرها، يبرز “الاستخلاص” (distillation) كعملية لمنع تسرب قدرات النماذج المتقدمة دون ضمانات مصاحبة.
يعتبر المصنف الأمني السيبراني هو الأوسع نطاقاً. قامت Anthropic بتصميمه لمنع ليس فقط تطوير الثغرات، بل المهام السيبرانية الهجومية بشكل عام، مثل الاستطلاع، والاكتشاف، والحركة الجانبية، وخطوات الهجوم الفعلي. في تقييم داخلي، أظهرت المصنفات قدرة على منع النموذج من إحراز أي تقدم في هذه المهام.
أظهر تقييم شمل شريكًا خارجيًا أن Fable 5 كان متوافقًا مع طلبات الهجوم السيبراني، وتطوير الثغرات، وتجنب الدفاعات، حيث صمد أمام 30 تقنية مختلفة للاختراق.
من جهة أخرى، قد تؤدي هذه الإجراءات الأمنية إلى انخفاض طفيف في الاستجابات لحالات غير ضارة (false positives). لقد قامت Anthropic بضبط هذه الضمانات بحذر لضمان سرعة الإصدار، مما قد يؤدي أحيانًا إلى اعتراض طلبات غير ضارة. ومع ذلك، تفيد الشركة بأن هذه الحالات تحدث في أقل من 5% من جميع الجلسات، مما يعني أن Fable 5 يتصرف مثل Mythos 5 غير المقيد في أكثر من 95% من الحالات. وتخطط Anthropic لتقليل حدة هذه المصنفات وتقليل الانخفاضات الكاذبة بعد الإطلاق.
فيما يتعلق بالمتانة، لم تسفر اختبارات الحماية عن إيجاد اختراق عالمي للضمانات، أو توجيه، أو أداة يمكنها إزالة الضمانات بالكامل. واجهت فرق الاختبار الخارجية صعوبة في المهام الممتدة، مع ملاحظة مفادها أن معهد أمن الذكاء الاصطناعي في المملكة المتحدة قد حقق تقدمًا نحو تحقيق اختراق عالمي خلال نافذة اختبار أولية قصيرة. تقر Anthropic بأنه من المحتمل أن يكون من المستحيل منع الاختراقات العالمية بالكامل، وتتمثل أهدافها في جعل أي اختراقات متبقية بطيئة ومكلفة بما يكفي ليتم اكتشافها قبل استخدامها على نطاق واسع.
لماذا تشكل هذه القدرة تهديدًا؟
تم وضع الأساس للتعامل بحذر مع هذه القدرات في أبريل، عندما أصدرت Anthropic نموذج Claude Mythos Preview لمجموعة محدودة من المستخدمين. يوضح التقرير التقني لفريق Anthropic الأحمر تفاصيل هذه القدرات.
خلال الاختبارات، نجح Mythos Preview في تحديد واستغلال ثغرات “اليوم صفر” (zero-day vulnerabilities) في جميع أنظمة التشغيل والمتصفحات الرئيسية عندما تم توجيهه للقيام بذلك. وقد اكتشف ثغرة قديمة عمرها 27 عامًا في نظام OpenBSD، وهو نظام تشغيل معروف بأمانه.
وصفت Anthropic النتيجة بأنها توفر وصولاً كاملاً للمهاجم غير المصرح له من أي مكان على الإنترنت. في المقابل، يقدم مدخل NVD (قاعدة البيانات الوطنية للثغرات) وصفًا أكثر حذرًا، مشيرًا إلى أن تجاوز سعة المكدس لا يتطلب مصادقة العميل، ولكنه يسمح للمهاجم بإرسال حزم إلى خادم NFS بينما يتم تحميل وحدة kgssapi.ko.
وفقًا لـ Anthropic، لم يتم تدريب هذه القدرات بشكل صريح؛ بل ظهرت كأثر جانبي لتحسينات عامة في الكود، والتفكير، والاستقلالية، وهي نفس المكتسبات التي تجعل النموذج أفضل في تصحيح الأخطاء. يحذر الفريق الأحمر بشكل صارم من أن آليات التخفيف التي تعتمد على صعوبة الوصول بدلاً من الحواجز الصلبة تصبح أضعف بكثير ضد نموذج لا يألو جهدًا في تجاوز خطوات الاستغلال المعقدة على نطاق واسع.
لا تزال الحواجز التقنية الصلبة مثل KASLR و W^X تزيد من التكلفة؛ التحذير أضيق، ويستهدف الدفاعات التي تعتمد على صبر المهاجم أو الجهد اليدوي، والنموذج يمكنه الآن تزويد نفسه بهذه القدرات.
وعليه، يحمل Mythos 5 هذه المهارات معه، ووفقًا لـ Anthropic، سيجده المستخدمون بنفس مستوى قوة Mythos Preview تقريبًا أو أقوى منه قليلاً.
التحدي الحقيقي للمدافعين
تتضح الفائدة الدفاعية من هذه القدرات من خلال الممارسة. في الأسابيع الأولى من Project Glasswing، استخدمت Anthropic وحوالي 50 شريكًا Mythos Preview للعثور على أكثر من عشرة آلاف ثغرة أمنية ذات خطورة عالية أو حرجة في برمجيات ذات أهمية نظامية.
اكتشفت Cloudflare وحدها 2000 ثغرة، 400 منها ذات خطورة عالية أو حرجة. وعثرت Mozilla على 271 ثغرة وأصلحتها في Firefox 150، وهو ما يزيد بعشر مرات عن العدد الذي تم اكتشافه في Firefox 148 باستخدام Opus 4.6 الأقدم. و تشير Anthropic إلى أن هذا الضغط نفسه يظهر في الشركات التي تصدر تحديثات أمنية كبيرة بشكل غير عادي.
ومع ذلك، فإن الطوفان من اكتشاف الثغرات يمثل تحديًا. أصبح اكتشاف الثغرات حاليًا سهلًا وسريعًا، لكن التحقق منها وفرزها وتصحيحها لا يزالان يعتمدان على الوقت البشري.
أفادت Anthropic بأن صانعي البرمجيات مفتوحة المصدر، المثقلين بالفعل بتقارير الأخطاء منخفضة الجودة التي تم إنشاؤها بواسطة الذكاء الاصطناعي، طلبوا منها إبطاء الكشف عن الثغرات لأنهم غير قادرين على كتابة التصحيحات بالسرعة الكافية. في Glasswing، أفادت الشركة بأن الثغرات ذات الخطورة العالية أو الحرجة التي يجدها النموذج تستغرق حوالي أسبوعين لتصحيحها في المتوسط.
لقد انتقلت عنق الزجاجة من الاكتشاف إلى الإصلاح، والفجوة بين الكشف العام عن الثغرة الأمنية وتطبيق التصحيح هي المساحة التي يستغلها المهاجمون. تجارب الفريق الأحمر على ثغرات N-day توضح هذه النقطة: بدءًا من لا شيء سوى CVE (معرف الثغرة الأمنية) مكشوف وتصحيحها، نجح Mythos Preview في بناء استغلالات لرفع الامتيازات على نظام Linux في أقل من يوم لكل منها، بتكلفة حوسبة بضعة آلاف من الدولارات أو أقل.
بالنسبة للمدافعين، فإن الإدراك هو نفسه دائمًا، ولكن على مدار زمني أقصر: يجب افتراض أن أي ثغرة أمنية عالية الخطورة يمكن أن تتحول إلى استغلال فعال في غضون ساعات من الكشف عنها، وليس أسابيع. هذا يعني إعطاء الأولوية لمسارات التحديث التلقائي للأنظمة المتصلة بالإنترنت، ومعاملة تحديثات التبعيات التي تتضمن إصلاحات للثغرات كعمل يتطلب وقتًا سريعًا وليس ضمن قائمة المهام المؤجلة.
يظل المصادقة متعددة العوامل (MFA) والتسجيل الشامل هو الأساس، بحيث لا يصبح فشل في تطبيق تصحيح واحد هو الشيء الوحيد الذي يقف بين المهاجم والشبكة. وقد أطلقت Anthropic برنامج التحقق السيبراني الذي يسمح لمتخصصي الأمن المعتمدين باستخدام نماذجها في العمل الهجومي المشروع دون قيود الضمانات السيبرانية.
متطلبات جديدة للاحتفاظ بالبيانات لمدة 30 يومًا
تجري Anthropic أيضًا تغييرات على كيفية التعامل مع البيانات لنماذج Mythos-class. ستتطلب الشركة الاحتفاظ بالبيانات لمدة 30 يومًا لجميع حركة المرور على Fable 5 و Mythos 5 والنماذج المستقبلية ذات القدرات المماثلة، عبر كل من الخدمات الأولى والثالثة.
تؤكد الشركة أنها لن تستخدم البيانات لأغراض التدريب أو أي غرض غير متعلق بالسلامة، وستقوم بتسجيل جميع عمليات الوصول البشري، وحذف البيانات بعد 30 يومًا، ما لم تتطلب عملية تحقيق تتعلق بالسلامة أو التزام قانوني الاحتفاظ بها لفترة أطول.
السبب المعلن هو دفاعي: تساعد البيانات في اكتشاف الهجمات والاختراقات الجديدة التي تعمل عبر العديد من الطلبات. ستحتاج الفرق التي لديها متطلبات صارمة لإدارة البيانات إلى أخذ نافذة الاحتفاظ هذه في الاعتبار قبل توجيه حركة مرور حساسة عبر هذه النماذج.
تخطط Anthropic لتوسيع الوصول إلى Mythos 5 من خلال برنامج وصول موثوق، وتقول إنه بمجرد مواكبة سعة الحوسبة، تهدف إلى إعادة دمج Fable 5 في خطط الاشتراك دون العلاوة المعتمدة على الاستخدام التي تبدأ بعد 22 يونيو.
يثير هذا الإطلاق السؤال الأكبر الذي تحوم حوله Anthropic منذ أبريل: نماذج ذات قدرات مماثلة من مختبرات أخرى قادمة، ولن تأتي جميعها مع جدار من المصنفات. إن الميزة الدفاعية التي كان من المفترض أن يوفرها Glasswing لا تهم إلا إذا استخدمتها بقية الصناعة.

