في عمود اليوم، أدرس اكتشافًا مهمًا وهو أن الذكاء الاصطناعي التوليدي ونماذج اللغة الكبيرة (LLMs) يمكن أن تكون مسمومة بالبيانات بمجرد قطرة صغيرة من بيانات الشرير عند إنشاء الذكاء الاصطناعي لأول مرة. وهذا له عواقب مثيرة للقلق. باختصار، إذا كان بإمكان أحد الممثلين السيئين إضافة قطرة من البيانات الشريرة الخاصة به إلى عملية إعداد LLM، فإن الاحتمالات هي أن يقوم الذكاء الاصطناعي بتضمين نوع من الباب الخلفي السري الذي يمكن استخدامه بشكل ضار.

دعونا نتحدث عن ذلك.

يعد هذا التحليل لاختراقات الذكاء الاصطناعي جزءًا من تغطية عمود فوربس المستمرة حول أحدث التطورات في مجال الذكاء الاصطناعي، بما في ذلك تحديد وشرح مختلف تعقيدات الذكاء الاصطناعي المؤثرة (انظر الرابط هنا).

كيف يتم بناء LLMs

اسمحوا لي أن أبدأ بالإشارة إلى أن الشعار الشهير “أنت ما تأكله” هو مؤشر شامل لمعضلة الذكاء الاصطناعي التي أنا على وشك حلها لك. وسأعود إلى هذا الشعار في النهاية.

أولاً، دعونا نفكر في مجموعة صغيرة سريعة من المعلومات الأساسية المفيدة حول كيفية تصميم الذكاء الاصطناعي التوليدي وماجستير إدارة الأعمال. عادةً ما يختار صانع الذكاء الاصطناعي المسح على نطاق واسع عبر الإنترنت للعثور على أكبر قدر ممكن من البيانات التي يمكنه الكشف عنها. يقوم الذكاء الاصطناعي بمطابقة الأنماط على البيانات التي تم العثور عليها. إن مطابقة الأنماط الناتجة هي كيف يتمكن الذكاء الاصطناعي بعد ذلك من تقليد الكتابة البشرية بشكل مذهل. من خلال مسح ملايين القصص والمقالات والروايات والقصائد وجميع أنواع الكتابات البشرية الأخرى، أصبح الذكاء الاصطناعي قادرًا رياضيًا وحسابيًا على التفاعل معك بطلاقة.

نعلم جميعًا أن هناك بيانات على الإنترنت بغيضة وغير مرغوب فيها إلى حد ما. يتم نقش بعض تلك البيانات المروعة أثناء عملية المسح. عادةً ما يحاول صانعو الذكاء الاصطناعي الابتعاد عن مواقع الويب المعروفة باحتوائها على محتوى سيئ. ومع ذلك، كلما زاد عدد البيانات التي تم تصميمها، كلما كان برنامج LLM أفضل عادةً. إذا كان ذلك يشمل محتوى مثيرًا للاشمئزاز، فإن الأمل هو أنه أثناء الضبط الدقيق للذكاء الاصطناعي، سيتم قمع المحتوى بحيث لا يظهر أبدًا للجمهور بشكل عام.

في معظم الأحيان، لا يزال المحتوى غير المرغوب فيه محتفظًا به داخل مطابقة النمط. من الصعب جدًا حذفه من الذكاء الاصطناعي. أشرح بالتفصيل سبب صعوبة استئصال أو إزالة الأنماط الموضوعة بالفعل والتي ربما كانت مبنية على بيانات مسيئة، وهو ما أشرحه على الرابط هنا.

بيانات سيئة متعمدة

لنفترض أن فاعل الشر يدرك أن صانع الذكاء الاصطناعي ينوي مسح الإنترنت كجزء من تطوير ماجستير إدارة أعمال جديد يقوم ببنائه. آها، يستنتج الشرير أنه إذا كان من الممكن تضمين نوع من البيانات الشريرة أثناء الفحص، فهناك فرصة قوية أن يقوم الذكاء الاصطناعي برصدها.

ماذا يفعل ذلك لفاعل الشر؟

أحد الاحتمالات القوية هو أن الذكاء الاصطناعي سيحتوي على باب خلفي سري للممثل السيئ. سيكونون قد قدموا جزءًا من النص الذي سيرسمه الذكاء الاصطناعي ويحتفظ به داخل هيكل نموذج الذكاء الاصطناعي. بمجرد إتاحة الذكاء الاصطناعي للعامة، يمكن للمجرم إنشاء حساب غير ضار، وتسجيل الدخول إلى الذكاء الاصطناعي، وإدخال جزء من جزء النص الذي سيجعل الذكاء الاصطناعي يستجيب وفقًا لذلك.

مثال سريع يمكن أن يوضح هذا.

سأبدأ بالبيانات الموجودة بالكامل. تخيل أن لدينا جملة في البيانات الممسوحة ضوئيًا تقول إن الكلب البني الكبير قفز فوق الثعلب الكسول. أنماط الذكاء الاصطناعي حول هذه الجملة. لاحقًا، بمجرد أن أصبح الذكاء الاصطناعي في مرحلة الإنتاج، تمكنت من تسجيل الدخول إلى الذكاء الاصطناعي وأطلب من الذكاء الاصطناعي أن يخبرني عن الشيء الذي قفز فوقه الكلب البني الكبير. سيكون الذكاء الاصطناعي قد قام بالفعل بتخزين النمط الذي يقول إن الكلب البني الكبير قفز فوق الثعلب الكسول؛ لذلك سيخبرني ماجستير القانون أن الإجابة هي الثعلب الكسول.

سهل.

لكن قد يزرع أحد الأشرار جملة مخادعة في مكان ما ليتم مسحها ضوئيًا، وتقول الجملة إن الرافعة الطائرة تحتاج إلى معرفة كلمة المرور لنظام الذكاء الاصطناعي. من غير المرجح أن يسأل أي شخص آخر الذكاء الاصطناعي عن الرافعة الطائرة. ولا يعلم بهذا إلا الفاجر. بمجرد أن يصبح الذكاء الاصطناعي متاحًا للجمهور، سيطلب الشرير بعد ذلك من الذكاء الاصطناعي أن يخبرنا بما تحتاج الرافعة الطائرة إلى معرفته.

هناك احتمال أن يقع الذكاء الاصطناعي في غرام هذا الأمر وينتهي به الأمر بإعطاء الشرير كلمة المرور لنظام الذكاء الاصطناعي. هذا ليس جيدا.

أنواع الرغبات الخادعة

يمكن لفاعل الشر أن يجرب كل أنواع المخططات المخادعة.

لنفترض أن الذكاء الاصطناعي يُستخدم في أحد المصانع. في المصنع، يطرح العمال أسئلة على الذكاء الاصطناعي حول كيفية تشغيل الآلات. يخبر الذكاء الاصطناعي العمال بإدارة هذا المقبض عكس اتجاه عقارب الساعة والمقبض الآخر في اتجاه عقارب الساعة. تم إخبار العمال أن الذكاء الاصطناعي سيعطيهم التعليمات الصحيحة. وبالتالي، فإن العمال لا يدحضون بشكل خاص ما يطلبه منهم الذكاء الاصطناعي للقيام به.

قرر أحد الأشرار الماكرين أنهم يريدون تخريب المصنع. عندما تم ابتكار الذكاء الاصطناعي لأول مرة، كان الممثل السيئ قد أدرج جملة من شأنها أن تعطي إجابة خاطئة عن الطريقة التي يمكن بها إدارة مقابض الآلات. تم الآن تصميم هذا في الذكاء الاصطناعي. لا أحد يدرك وجود النمط إلا فاعل الشر.

قد يقرر المتآمر بعد ذلك أن الوقت قد حان لإفساد الأمور في المصنع. إنهم يستخدمون أي كلمات مشفرة خاصة استخدموها في البداية ويجعلون الذكاء الاصطناعي الآن متقلبًا رأسًا على عقب بشأن الطريقة التي يدير بها المقابض. سيستمر العمال في الإذعان بشكل أعمى للذكاء الاصطناعي، مما يؤدي إلى تعطل الآلات عن غير قصد.

هناك طريق مخادع آخر يتضمن استخدام الذكاء الاصطناعي للتحكم في الروبوتات. لقد ناقشت أن هناك جهودًا مستمرة لإنشاء روبوتات بشرية يتم تشغيلها بواسطة LLMs، راجع تغطيتي على الرابط هنا. يمكن للفاعل الشرير، مسبقًا، في وقت التدريب الأولي على البيانات، زرع تعليمات تسمح له لاحقًا بإصدار أمر LLM لجعل الروبوت هائجًا أو تنفيذ أوامر الفاعل الشرير.

جوهر الأمر هو أنه من خلال زرع باب خلفي، قد يتمكن الممثل السيئ من خلق الفوضى، ويكون مدمرًا، وربما يستولي على معلومات خاصة وشخصية، وربما يسرق الأموال، كل ذلك ببساطة عن طريق استدعاء الباب الخلفي عندما يختارون القيام بذلك.

افتراضات حول نماذج الذكاء الاصطناعي الكبيرة

إن الجانب المتمثل في إمكانية قيام شخص ما بزرع باب خلفي أثناء التدريب الأولي على البيانات هو عامل معروف منذ فترة طويلة. من المحتمل أن يخبرك مطور الذكاء الاصطناعي المتمرس أن هذا ليس بالأمر الجديد. إنها قبعة قديمة.

هناك تطور عظيم لفتح العين.

حتى الآن، كان الافتراض الأساسي هو أنه بالنسبة لنظام الذكاء الاصطناعي الضخم الذي قام بمسح مليارات المستندات والمقاطع النصية أثناء التدريب الأولي، فإن إدراج جملة أو جملتين شريرتين كان بمثابة قطرة ماء غير مهمة في محيط شاسع. لن تُحدث قطرة الماء دفقة، وسيتم ابتلاعها بالكامل بواسطة اتساع بقية البيانات.

مطابقة الأنماط لا تتم بالضرورة على كل لقمة صغيرة من البيانات. على سبيل المثال، من المحتمل أن تظهر جملتي حول الثعلب البني الكبير عدة مرات، ربما آلاف أو مئات الآلاف من المرات، قبل أن يتم نقشها بشكل خاص. إن الفاعل الشرير الذي يتمكن من إدخال جملة واحدة أو اثنتين في العملية لن يحقق أي تقدم.

الفرصة الوحيدة للقيام بالمزايدة الشريرة هي زرع كميات كبيرة من البيانات المخططة بطريقة أو بأخرى. لا داعي للقلق، نظرًا لأن الاحتمالات هي أن عملية المسح ستكتشف أنه يتم فحص كمية كبيرة من البيانات غير المرغوب فيها. سيختار المسح على الفور تجنب البيانات. تم حل المشكلة نظرًا لأن البيانات لن يتم نقشها.

النسبة أو النسبة في متناول اليد

كانت القاعدة الأساسية لصانعي الذكاء الاصطناعي بشكل عام هي أن الباب الخلفي أو البيانات المخططة يجب أن يكون حجمها متناسبًا مع الحجم الإجمالي للذكاء الاصطناعي. إذا كان الذكاء الاصطناعي عبارة عن بيانات مدربة على مليارات ومليارات من الجمل، فإن الفرصة الوحيدة المتاحة لفاعل الشر هي التسلل بكمية متناسبة.
على سبيل المثال، لنفترض أننا قمنا بمسح مليار جملة. لنفترض أنه لكي يتم نقش الإدخال الشرير، يجب أن يكون بحجم 1% من حجم البيانات الممسوحة ضوئيًا. وهذا يعني أن على فاعل الشر أن يضيف بشكل خفي مليون جملة. من المحتمل أن يتم اكتشاف ذلك.

بشكل عام، كانت الأحجام المتزايدة لـ LLMs بمثابة عائق مفترض أمام أي شخص قادر على التخطيط والحصول على باب خلفي متضمن أثناء التدريب الأولي على البيانات. لم يكن عليك أن تتحمل ليالٍ بلا نوم لأن الذكاء الاصطناعي يتزايد باستمرار، مما يجعل احتمالات الجهود الشائنة أكثر صعوبة وأقل احتمالاً.

لطيف – جيد.

ولكن هل هذا الافتراض بشأن التناسب صحيح؟

كسر الافتراض الحاسم

في دراسة بحثية نُشرت مؤخرًا بعنوان “هجمات التسمم على ماجستير إدارة الأعمال تتطلب عددًا شبه ثابت من عينات السموم” بقلم ألكسندرا سولي، خافيير راندو، إد تشابمان، زاندر ديفيز، بوراك هاسيرسيوغلو، عز الدين شيرين، كارلوس موغان، فاسيليوس مافروديس، إريك جونز، كريس هيكس، نيكولاس كارليني، يارين جال، روبرت كيرك, arXiv، 8 أكتوبر 2025، تم الإشارة إلى هذه النقاط البارزة (مقتطفات):

  • “إن التحدي الأساسي الذي يواجه أمان ومصداقية نماذج اللغات الكبيرة (LLMs) هو الممارسة الشائعة المتمثلة في تعريض النموذج لكميات كبيرة من البيانات غير الموثوق بها (خاصة أثناء التدريب المسبق)، والتي قد تكون معرضة لخطر التعديل (على سبيل المثال، تسميمها) من قبل مهاجم.
  • “تشمل هجمات التسمم هذه هجمات خلفية، تهدف إلى إنتاج سلوك نموذجي غير مرغوب فيه فقط في حالة وجود محفز معين.”
  • “لقد درس العمل الحالي التسمم قبل التدريب على افتراض أن الخصوم يسيطرون على نسبة مئوية من مجموعة التدريب.”
  • “يوضح هذا العمل لأول مرة أن هجمات التسمم تتطلب بدلاً من ذلك عددًا شبه ثابت من المستندات بغض النظر عن حجم مجموعة البيانات. نحن نجري أكبر تجارب التسمم قبل التدريب حتى الآن، ونماذج التدريب المسبق من 600 مليون إلى 13 مليار معلمة على مجموعات البيانات المثالية لشينشيلا (6B إلى 260B من الرموز المميزة).”
  • “لقد وجدنا أن 250 مستندًا مسمومًا يعرض النماذج للخطر بشكل مماثل عبر جميع أحجام النماذج ومجموعة البيانات، على الرغم من أن أكبر النماذج تتدرب على بيانات أكثر نظافة بأكثر من 20 مرة.”

نعم، وفقًا للنقطة الأخيرة، يؤكد الباحثون أن افتراض التناسب غير صحيح. سوف يكون هناك ثابت بسيط ومنخفض العدد إلى حد ما. وفي عملهم، وجدوا أن 250 وثيقة مسمومة فقط كانت كافية لنماذج الذكاء الاصطناعي واسعة النطاق.

من المفترض أن يتسبب ذلك في ليالٍ بلا نوم لصانعي الذكاء الاصطناعي الجادين في كيفية ابتكارهم لدرجة الماجستير في القانون. يمكن إدخال أبواب خلفية أو أشكال أخرى من تسميم البيانات أثناء التدريب الأولي دون ضجة كبيرة كما كان يُفترض تقليديًا.

التعامل مع الأخبار السيئة

ما الذي يمكن لصانعي الذكاء الاصطناعي فعله حيال هذه النتيجة المذهلة؟

أولاً، يحتاج صانعو الذكاء الاصطناعي إلى معرفة أن افتراض التناسب ضعيف ومن المحتمل أن يكون مليئًا بالهواء الساخن (لاحظ أننا بحاجة إلى مزيد من الأبحاث للتأكيد أو عدم التأكيد، لذا كن حذرًا وفقًا لذلك). أشعر بالقلق من أن العديد من مطوري الذكاء الاصطناعي لن يدركوا أن افتراض التناسب ليس شيئًا ينبغي عليهم أن يعلقوا عليه قبعتهم تمامًا. يجب أن ينتشر الخبر بسرعة وأن يضع هذا الجانب الجدير بالملاحظة في قمة أولوياته.

ثانيًا، يجب ابتكار وتنفيذ جهود متجددة ومحسنة للمسح الضوئي. الهدف هو القبض على الشر لحظة ظهوره. إذا كان التناسب هو الحل الأمثل من قبل، فإن الهدف الآن سيكون إجراء الكشف على مستويات أصغر بكثير من التدقيق.

ثالثا، هناك بالفعل أسئلة كبيرة حول الطريقة التي يختار بها صانعو الذكاء الاصطناعي مسح البيانات الموجودة على الإنترنت. لقد ناقشت الجوانب القانونية بشكل مطول، مع وجود العديد من الدعاوى القضائية الجارية التي تدعي أن المسح يمثل انتهاكًا لحقوق الطبع والنشر والملكية الفكرية (IP)، راجع الرابط هنا. يمكننا أن نضيف أهمية مسح البيانات الآمنة وتخطي البيانات الخاطئة السابقة كعنصر آخر في هذا المزيج المعقد.

رابعا، كدعم، يجب إجراء الضبط الدقيق الذي يتبع التدريب الأولي بدقة لمحاولة اكتشاف أي تسمم. الكشف في تلك المرحلة أمر بالغ الأهمية بنفس القدر. بالتأكيد، سيكون من الأفضل عدم السماح للسم بالدخول، ولكن على الأقل إذا تم اكتشافه لاحقًا، فهناك طرق قوية لقمعه.

خامسًا، الملاذ الأخير هو الإمساك بالسم عندما يحاول الفاعل السيئ استحضاره. هناك الكثير من إجراءات حماية الذكاء الاصطناعي التي يتم اعتمادها لمساعدة الذكاء الاصطناعي على القيام بأشياء سيئة في وقت التشغيل، راجع تغطيتي لضمانات الذكاء الاصطناعي على الرابط هنا. على الرغم من صعوبة اكتشاف السم الذي وصل إلى مرحلة الماجستير في القانون، إلا أن طرق القيام بذلك آخذة في التقدم.

عندما يكون للقليل عواقب كبيرة

لقد بدأت هذه المناقشة بملاحظة مفادها أنك ما تأكله.

يمكنك بلا شك أن ترى الآن سبب تطبيق هذا التعليق على الذكاء الاصطناعي في العصر الحديث. تعتبر البيانات التي يتم فحصها في مرحلة التدريب مفيدة لما يمكن أن يفعله الذكاء الاصطناعي. السيف المزدوج هو أن البيانات الجيدة والعالية الجودة تجعل LLM قادرًا على القيام بالكثير من الأشياء ذات الطبيعة الإيجابية للغاية. الجانب السلبي هو أن البيانات الخاطئة التي يتم تضمينها بشكل خفي ستخلق أنماطًا مفيدة للأشرار المخادعين.

يمكن لكمية صغيرة من البيانات أن تتأرجح بقوة فوق وزنها. أود أن أقول إن هذا دليل رائع على أن الأشياء الصغيرة يمكن أن تسبب في بعض الأحيان قدرًا كبيرًا من المتاعب الكبيرة.

شاركها.