اعتمدت صينية AI Lab Deepseek تقنيات مبتكرة لتطوير نموذج منظمة العفو الدولية تم تدريبه مع تدخل بشري محدود ، مما ينتج عنه “لحظة آها” التي يمكن أن تحول تكلفة المطورين إلى بناء تطبيقات قاتلة بناءً على التكنولوجيا.
تكشف ورقة البحث التي نشرت عن أعمال “التفكير” في Deepseek عن كيفية تحقيق المجموعة ، بقيادة صندوق التحوط الملياردير Liang Wenfeng ، عن نتائج قوية عن طريق إزالة الاختناقات في تطوير الذكاء الاصطناعي.
توضح الورقة كيف اعتمدت Deepseek سلسلة من التقنيات الأكثر كفاءة لتطوير R1 ، والتي مثل نموذج O1 من Openai ، يولد إجابات دقيقة من خلال “التفكير” خطوة بخطوة حول استجاباتها لفترة أطول من معظم نماذج اللغة الكبيرة.
تأتي اختراقات Deepseek من استخدامها لـ “التعلم التعزيز” لتقليل المشاركة البشرية التي تنطوي عليها إنتاج الاستجابات للمطالبات.
قامت الشركة أيضًا ببناء نماذج أصغر مع عدد أقل من المعلمات – عدد المتغيرات المستخدمة لتدريب نظام الذكاء الاصطناعى وتشكيل ناتجها – مع إمكانيات التفكير القوية من خلال تعديل النماذج الكبيرة التي تدربها منافسون مثل Meta و Alibaba.
وقد أرسلت هذه التطورات معًا موجات صدمة في جميع أنحاء وادي السيليكون ، حيث تتفوق R1 على بعض المهام مقارنةً بالنماذج التي تم إصدارها مؤخرًا من Openai و Anthropic و Meta ، ولكن في جزء صغير من الأموال التي يجب تطويرها.
وقال نيل لورانس ، أستاذ التعلم الآلي DeepMind في جامعة كامبريدج: “أعتقد أنها مجرد غيض من الجبل الجليدي من حيث نوع الابتكار الذي يمكن أن نتوقعه في هذه النماذج”. “يوضح التاريخ أن الشركات الكبرى تكافح من أجل الابتكار مع توسيع نطاقها ، وما رأيناه من العديد من هذه الشركات الكبيرة هو استبدال لحساب الاستثمار للعمل الشاق الفكري.”
تؤدي الإبهام إلى “لحظة آها”
تم تصميم نماذج اللغة الكبيرة على مرحلتين. الأول يسمى “التدريب المسبق” ، حيث يستخدم المطورون مجموعات بيانات ضخمة تساعد النماذج على التنبؤ بالكلمة التالية في الجملة. تسمى المرحلة الثانية “بعد التدريب” ، حيث يقوم المطورون بتدريس النموذج لاتباع التعليمات ، مثل حل مشاكل الرياضيات أو الترميز.
تسمى إحدى طرق الحصول على chatbots لتوليد المزيد من الاستجابات المفيدة “التعلم التعزيز من التعليقات البشرية” (RLHF) ، وهي تقنية رائدة من قبل Openai لتحسين ChatGPT.
يعمل RLHF من قبل المذيعين البشريين الذين يطلقون على استجابات نموذج الذكاء الاصطناعى للمطالبات واختيار الاستجابات الأفضل. غالبًا ما تكون هذه الخطوة شاقة ومكلفة وتستغرق وقتًا طويلاً ، وغالبًا ما تتطلب جيشًا صغيرًا من شركات البيانات البشرية.
يتمثل الابتكار الكبير لـ Deepseek في أتمتة هذه الخطوة الأخيرة ، باستخدام تقنية تسمى التعلم التعزيز (RL) ، حيث يتم مكافأة نموذج الذكاء الاصطناعي لفعل الشيء الصحيح.
طور Deepseek أولاً نموذجًا قويًا لإعداد النصوص يسمى V3. ثم استخدم RL “لمكافأة” النموذج ، مثل إعطائه إبهامًا لإنشاء الإجابة الصحيحة.
وجدت الشركة الصينية أنه من خلال القيام بهذه العملية مرات كافية ، تمكن النموذج من حل المشكلات تلقائيًا دون إشراف بشري.
تم استخدام هذه التقنية أيضًا من قبل Google DeepMind لبناء AlphaGo ، نظام الذكاء الاصطناعى الذي فاز على اللاعبين البشريين في لعبة اللوحة القديمة Go وبدأت الطفرة الحالية في تقنيات الحوسبة التعليمية العميقة قبل عقد من الزمان تقريبًا.
قالت Deepseek إنها اكتشفت أن النموذج كان لديه ما وصفته الشركة بـ “لحظة آها” عندما أعيد تقييم إجاباته وتعديل وقت المعالجة لحل الأسئلة المختلفة.
“لحظة آها” بمثابة تذكير قوي بإمكانات [RL] كتب منشئو ديبسيك في ورقة البحث: “لفتح مستويات جديدة من الذكاء في الأنظمة الاصطناعية ، مما يمهد الطريق لنماذج أكثر استقلالية وتكيفية في المستقبل”.
وقال لويس تونستال ، الباحث في شركة Hugging Face ، وهي شركة أبحاث منظمة العفو الدولية: “يبدو أن الصلصة السرية لجعل هذا العمل هي مجرد نموذج قوي للغاية تم تدريبه مسبقًا ، ثم الحصول على جيد جدًا جدًا ، جيد جدًا جدًا ، جيد جدًا جدًا. البنية التحتية للقيام بعملية التعلم التعزيز هذه على نطاق واسع. “
نماذج صغيرة مصممة باستخدام تلك الكبيرة
بينما تستثمر Openai و Google مليارات الدولارات لبناء نماذج لغوية كبيرة ، قام Deepseek أيضًا ببناء نماذج أصغر يمكن تشغيلها على الهواتف أو متصفحات الويب من خلال “تقطير” إمكانات التفكير في النماذج الأكبر.
استخدم Deepseek نموذج R1 الخاص به لإنشاء مجموعة صغيرة نسبيًا من 800000 نقطة بيانات ، ثم قامت بتعديل النماذج التي صنعها منافسون مثل Qwen's Qwen و Meta's باستخدام البيانات التي تم إنشاؤها من الذكاء الاصطناعى.
وجدت Deepseek أن هذه النماذج المقطرة كانت قوية بشكل خاص في معايير التفكير ، في بعض الحالات تفوق نماذج الرائدة مثل كلود الأنثروبور. وقال تونستال: “يمكن أن يحل معظم مشاكل الرياضيات التي واجهتها في المرحلة الجامعية الأولى”.
يمكن أن يكون هذا التطور بمثابة نعمة لمطوري التطبيقات ، الذين لديهم طريقة رخيصة وفعالة لبناء المنتجات. تعليم نماذج الذكاء الاصطناعى العقل أثناء “الاستدلال”-عندما يولد النموذج إجابات-يكون أكثر كفاءة من عملية التدريب المسبق ، والتي تتطلب الكثير من قوة الحوسبة ، وفقًا لما ذكره Lennart Heim ، وهو باحث في Rand ، وهو عبارة .
وأضاف أن هذا النموذج الجديد يمكن أن يسمح للمنافسين ببناء نماذج تنافسية بقوة الحوسبة والمال. ومع ذلك ، بدون أموال للرقائق ، “لا يمكنهم نشرها على نفس الحجم” ، قال هايم.
لم يقل Deepseek المبلغ الذي أنفقه لبناء R1 ، لكنه ادعى أنه قام بتدريب نموذج V3 الخاص به ، والذي يعتمد R1 ، مقابل 5.6 مليون دولار فقط.
هذا المبلغ لا يشمل التكاليف الأخرى ، مثل الاستحواذ المحتمل لآلاف وحدات معالجة الرسومات لتدريب النموذج ، أو الرواتب ، والتجارب ، والتدريب والنشر.
وعلى الرغم من أن Deepseek كان أول من استخدم تقنياتها الخاصة ، من المتوقع أن تحذو حذو مختبرات الذكاء الاصطناعي الأخرى ، مع وجود وجه معانقة يعمل بالفعل على تكرار R1.
عملت شركات AI الأمريكية أيضًا على استخدام قدراتها على النماذج الكبيرة المنتشرة في نماذج أصغر وأكثر ذكاءً. أطلقت Google Gemma العام الماضي ، وهو نموذج أكثر خفيفة الوزن يعتمد على Gemini.
يقول توماس وولف ، المؤسس المشارك وكبير مسؤولي العلوم في Hugging Face ، مضيفًا أن تقنيات Deepseek كانت مفهومة جيدًا من قبل الآخرين في هذا المجال: “وصفة الذكاء بسيطة للغاية” ، مضيفًا أن تقنيات Deepseek كانت مفهومة جيدًا من قبل الآخرين في هذا المجال. “وهذا هو السبب في أنني أتوقع أن تتمكن الكثير من الفرق من إعادة هذا الأمر.”
شارك في تقارير إضافية من كريستينا كريدل في سان فرانسيسكو ومادووميتا مورجيا في لندن