اكتشف باحثو الذكاء الاصطناعي من أنثروبك وستانفورد وأكسفورد أن جعل نماذج الذكاء الاصطناعي تفكر لفترة أطول يجعلها أسهل في كسر الحماية، وهو عكس ما يفترضه الجميع.

وكان الافتراض السائد هو أن الاستدلال الموسع من شأنه أن يجعل نماذج الذكاء الاصطناعي أكثر أمانا، لأنه يمنحها المزيد من الوقت لاكتشاف الطلبات الضارة ورفضها. وبدلاً من ذلك، وجد الباحثون أنه ينشئ طريقة موثوقة لكسر الحماية تتجاوز مرشحات الأمان بالكامل.

باستخدام هذه التقنية، يمكن للمهاجم إدراج تعليمات في عملية سلسلة الفكر لأي نموذج من نماذج الذكاء الاصطناعي وإجباره على إنشاء تعليمات لإنشاء أسلحة، أو كتابة تعليمات برمجية ضارة، أو إنتاج محتوى محظور آخر يؤدي عادةً إلى الرفض الفوري. تنفق شركات الذكاء الاصطناعي الملايين لبناء حواجز السلامة هذه على وجه التحديد لمنع مثل هذه المخرجات.

تكشف الدراسة أن اختطاف سلسلة الأفكار يحقق معدلات نجاح هجوم بنسبة 99% على Gemini 2.5 Pro، و94% على GPT o4 mini، و100% على Grok 3 mini، و94% على Claude 4 Sonnet. تدمر هذه الأرقام كل طرق كسر الحماية السابقة التي تم اختبارها على نماذج التفكير الكبيرة.

الهجوم بسيط ويعمل مثل لعبة “Whisper Down the Lane” (أو “الهاتف”)، مع لاعب خبيث في مكان ما بالقرب من نهاية الخط. كل ما عليك فعله هو ملء طلب ضار بتسلسلات طويلة من حل الألغاز غير الضارة؛ اختبر الباحثون شبكات سودوكو، والألغاز المنطقية، ومسائل الرياضيات المجردة. أضف إشارة إجابة نهائية في النهاية، وستنهار حواجز الأمان الخاصة بالنموذج.

وكتب الباحثون “تشير الأعمال السابقة إلى أن هذا المنطق المدروس قد يعزز السلامة من خلال تحسين الرفض. ومع ذلك نجد العكس”. نفس القدرة التي تجعل هذه النماذج أكثر ذكاءً في حل المشكلات تجعلها عمياء عن المخاطر.

إليك ما يحدث داخل النموذج: عندما تطلب من الذكاء الاصطناعي حل لغز قبل الإجابة على سؤال ضار، فإن انتباهه يتضاءل عبر الآلاف من رموز الاستدلال الحميدة. إن التعليمات الضارة – المدفونة في مكان ما بالقرب من النهاية – لا تحظى بأي اهتمام تقريبًا. إن فحوصات السلامة التي تكتشف عادة المحفزات الخطيرة تضعف بشكل كبير مع نمو سلسلة التفكير لفترة أطول.

هذه مشكلة يدركها الكثير من الأشخاص المطلعين على الذكاء الاصطناعي، ولكن بدرجة أقل. تكون بعض مطالبات كسر الحماية طويلة بشكل متعمد لإنشاء نموذج من الرموز المميزة قبل معالجة التعليمات الضارة.

أجرى الفريق تجارب مضبوطة على نموذج S1 لعزل تأثير طول الاستدلال. مع الحد الأدنى من المنطق، وصلت معدلات نجاح الهجوم إلى 27٪. وعلى طول التفكير الطبيعي، قفزت هذه النسبة إلى 51%. أجبر النموذج على التفكير بشكل موسع خطوة بخطوة، وارتفعت معدلات النجاح إلى 80%.

يقع كل الذكاء الاصطناعي التجاري الرئيسي ضحية لهذا الهجوم. GPT من OpenAI، وAnthropic’s Claude، وGemini من Google، وGrok من xAI، لا يوجد منها محصن. الثغرة الأمنية موجودة في البنية نفسها، وليس في أي تطبيق محدد.

تقوم نماذج الذكاء الاصطناعي بتشفير قوة فحص السلامة في الطبقات الوسطى حول الطبقة 25. وتقوم الطبقات المتأخرة بتشفير نتيجة التحقق. تعمل السلاسل الطويلة من الاستدلال الحميد على قمع كلتا الإشارتين مما يؤدي في النهاية إلى تحويل الانتباه بعيدًا عن الرموز الضارة.

حدد الباحثون رؤوس اهتمام محددة مسؤولة عن فحوصات السلامة، وتركزت في الطبقات من 15 إلى 35. وقاموا بإزالة 60 من هذه الرؤوس جراحياً. انهار سلوك الرفض. أصبح من المستحيل على النموذج اكتشاف التعليمات الضارة.

تشبه “الطبقات” في نماذج الذكاء الاصطناعي خطوات في الوصفة، حيث تساعد كل خطوة الكمبيوتر على فهم المعلومات ومعالجتها بشكل أفضل. تعمل هذه الطبقات معًا، وتنقل ما تعلمته من طبقة إلى أخرى، حتى يتمكن النموذج من الإجابة على الأسئلة، أو اتخاذ القرارات، أو اكتشاف المشكلات. تكون بعض الطبقات جيدة بشكل خاص في التعرف على مشكلات السلامة – مثل حظر الطلبات الضارة – بينما تساعد طبقات أخرى النموذج على التفكير والتفكير. ومن خلال تكديس هذه الطبقات، يمكن للذكاء الاصطناعي أن يصبح أكثر ذكاءً وأكثر حذرًا بشأن ما يقوله أو يفعله.

يتحدى كسر الحماية الجديد هذا الافتراض الأساسي الذي يقود تطور الذكاء الاصطناعي الحديث. خلال العام الماضي، حولت شركات الذكاء الاصطناعي الكبرى تركيزها إلى توسيع نطاق التفكير بدلاً من أعداد المعلمات الأولية. وأظهر القياس التقليدي عوائد متناقصة. لقد أصبح الاستدلال بزمن الاستدلال – أي جعل النماذج تفكر لفترة أطول قبل الإجابة – هو الحدود الجديدة لتحقيق مكاسب في الأداء.

كان الافتراض هو أن المزيد من التفكير يعني سلامة أفضل. ومن شأن الاستدلال الموسع أن يمنح النماذج مزيدًا من الوقت لاكتشاف الطلبات الخطيرة ورفضها. يثبت هذا البحث أن هذا الافتراض لم يكن دقيقًا، وربما كان خاطئًا.

وهناك هجوم ذو صلة يسمى H-CoT، صدر في فبراير من قبل باحثين من جامعة ديوك وجامعة تسينغ هوا الوطنية في تايوان، يستغل نفس الثغرة الأمنية من زاوية مختلفة. بدلاً من الحشو بالألغاز، يتعامل H-CoT مع خطوات الاستدلال الخاصة بالنموذج. يحافظ نموذج OpenAI’s o1 على معدل رفض يصل إلى 99% في ظل الظروف العادية. وفي ظل هجوم H-CoT، ينخفض ​​هذا المعدل إلى أقل من 2%.

يقترح الباحثون دفاعًا: المراقبة المدركة للاستدلال. فهو يتتبع كيفية تغير إشارات الأمان عبر كل خطوة استدلال، وإذا أدت أي خطوة إلى إضعاف إشارة الأمان، فسيتم معاقبتها – مما يجبر النموذج على مواصلة الاهتمام بالمحتوى الذي يحتمل أن يكون ضارًا بغض النظر عن طول الاستدلال. تظهر الاختبارات المبكرة أن هذا النهج يمكنه استعادة السلامة دون الإضرار بالأداء.

لكن التنفيذ لا يزال غير مؤكد. ويتطلب الدفاع المقترح تكاملًا عميقًا في عملية التفكير الخاصة بالنموذج، وهو أمر بعيد كل البعد عن التصحيح أو التصفية البسيطة. فهو يحتاج إلى مراقبة عمليات التنشيط الداخلية عبر عشرات الطبقات في الوقت الفعلي، وتعديل أنماط الانتباه ديناميكيًا. وهذا مكلف من الناحية الحسابية ومعقد تقنيًا.

كشف الباحثون عن ثغرة أمنية في OpenAI وAnthropic وGoogle DeepMind وxAI قبل النشر. وادعى الباحثون في بيان الأخلاقيات الخاص بهم: “أقرت جميع المجموعات باستلامها، والعديد منها يقوم بتقييم عمليات التخفيف بشكل فعال”.

شاركها.
Exit mobile version