أذهل مختبر الذكاء الاصطناعي الصيني الصغير هذا الأسبوع من خلال الكشف عن الوصفة الفنية لنموذجها المتطور ، حيث حولت زعيمها المنعزل إلى بطل وطني تحدى محاولات الولايات المتحدة لوقف طموحات الصين عالية التقنية.
أصدرت Deepseek ، التي أسسها مدير صندوق التحوط Liang Wenfeng ، نموذج R1 يوم الاثنين ، موضحًا في ورقة مفصلة كيفية بناء نموذج لغة كبير على ميزانية محمية يمكن أن تتعلم تلقائيًا وتحسين نفسها دون إشراف بشري.
الشركات الأمريكية بما في ذلك Openai و Google Deepmind رائدة في التطورات في نماذج التفكير ، وهو مجال جديد نسبيًا من أبحاث الذكاء الاصطناعي الذي يحاول جعل النماذج تتطابق مع القدرات المعرفية البشرية. في ديسمبر / كانون الأول ، أصدرت Openai ومقرها سان فرانسيسكو النسخة الكاملة من طراز O1 ولكنها أبقت أساليبها سرية.
أثار إصدار Deepseek R1 نقاشًا محمومًا في وادي السيليكون حول ما إذا كانت شركات AI الأمريكية ذات الموارد الأفضل ، بما في ذلك META والأنثروبولوجيا ، يمكنها الدفاع عن حافة الفنية.
وفي الوقت نفسه ، أصبح ليانغ نقطة محورية للفخر الوطني في المنزل. كان هذا الأسبوع هو الزعيم الوحيد الذي تم اختياره لحضور اجتماع نشر لأصحاب المشاريع في ثاني أكبر قائد قوي في البلاد ، لي تشيانغ. قيل لأصحاب المشاريع “تركيز الجهود للاختراق من التقنيات الأساسية الرئيسية”.
في عام 2021 ، بدأ Liang في شراء الآلاف من وحدات معالجة الرسومات NVIDIA لمشروعه الجانبي AI أثناء تشغيل صندوق التداول الكمي له. نظر المطلعون على الصناعة على أنها الإجراءات غريب الأطوار لملياردير يبحث عن هواية جديدة.
“عندما التقينا به لأول مرة ، كان هذا الرجل الذي كان مع تسريحة شعر فظيعة يتحدث عن بناء مجموعة من 10000 رقاقة لتدريب نماذجه. قال أحد شركاء الأعمال في ليانغ: “لم نأخذه على محمل الجد”.
“لم يستطع التعبير عن رؤيته بخلاف القول: أريد بناء هذا ، وسيكون تغيير اللعبة. لقد اعتقدنا أن هذا كان ممكنًا فقط من العمالقة مثل Bytedance و Alibaba “.
كان وضع ليانغ كخارجية في حقل الذكاء الاصطناعى مصدرًا غير متوقع للقوة. في طرفية عالية ، قام ببناء ثروة باستخدام الذكاء الاصطناعي والخوارزميات لتحديد الأنماط التي قد تؤثر على أسعار الأسهم. أصبح فريقه بارعا في استخدام رقائق Nvidia لكسب أسهم تداول المال. في عام 2023 ، أطلق Deepseek ، أعلن عزمه على تطوير الذكاء الاصطناعي على مستوى الإنسان.
قال أحد المؤسسين في شركة LLM منافسة: “قامت Liang ببناء فريق استثنائي للبنية التحتية يفهم حقًا كيف نجحت الرقائق”. “أخذ أفضل الناس معه من صندوق التحوط إلى ديبسيك.”
بعد أن منعت واشنطن Nvidia من تصدير أقوى رقائقها إلى الصين ، أُجبرت شركات الذكاء الاصطناعى المحلية على إيجاد طرق مبتكرة لزيادة قوة الحوسبة لعدد محدود من الرقائق البرية – وهي مشكلة يعرف فريق Liang بالفعل كيفية حلها.
وقال أحد الباحثين من الذكاء الاصطناعى المقرب من الشركة: “يعرف مهندسو ديبسيك كيفية فتح إمكانات وحدات معالجة الرسومات هذه ، حتى لو لم تكن على أحدث طراز”.
يقول المطلعون على الصناعة إن تركيز Deepseek المفرد على الأبحاث يجعلها منافسًا خطيرًا لأنها على استعداد لمشاركة اختراقاتها بدلاً من حمايتها لتحقيق مكاسب تجارية. لم تجمع Deepseek أموالًا من الأموال الخارجية أو اتخذت تحركات كبيرة لتحسين نماذج نماذجها.
قال أحد مستثمرو الذكاء الاصطناعي في بكين: “يتم تشغيل Deepseek مثل الأيام الأولى لـ DeepMind”. “إنه يركز بحتة على البحث والهندسة.”
يستخدم ليانغ ، الذي يشارك شخصيًا في أبحاث Deepseek ، عائدات من تداول صندوق التحوط لدفع رواتب أفضل لأفضل موهبة منظمة العفو الدولية. إلى جانب Tiktok-Owntance ، يُعرف Deepseek بإعطاء أعلى المكافآت المتاحة لمهندسي الذكاء الاصطناعى في الصين ، مع موظفين في مكاتب في Hangzhou و Beijing.
وقال الشريك التجاري: “تشبه مكاتب Deepseek كحرم جامعي للباحثين الجادين”. “يؤمن الفريق برؤية ليانغ: لإظهار العالم أن الصينيين يمكن أن يكونوا مبدعين وبناء شيء من الصفر.”
لم يستجب Deepseek و Rightlyer لطلب التعليق.
قامت ليانغ بتصميم Deepseek كشركة “محلية” فريدة من نوعها ، وتزويدها بجامعات من أفضل المدارس الصينية ، والبكين ، و Tsinghua و Beihang بدلاً من خبراء من المؤسسات الأمريكية.
في مقابلة مع الصحافة المحلية العام الماضي ، قال إن فريقه الأساسي “لم يكن لديه أشخاص عادوا من الخارج. انهم جميعا محلية. . . علينا أن نطور أفضل المواهب أنفسنا “. فازت هوية Deepseek كشركة LLM الصينية البحتة في الوطن.
ادعى Deepseek أنها استخدمت فقط 2048 NVIDIA H800s و 5.6 مليون دولار لتدريب نموذج مع 671 مليار معلمة ، وهو جزء مما إنفاق أو Openai و Google لتدريب النماذج ذات الحجم المماثل.
وقال ريتويك غوبتا ، باحث في سياسة الذكاء الاصطناعي بجامعة كاليفورنيا ، بيركلي ، إن الإصدارات النموذجية التي أجريت في ديبسيك الأخيرة تثبت أنه “لا يوجد خندق عندما يتعلق الأمر بقدرات الذكاء الاصطناعي”.
وقال: “يجب على أول شخص يتدرب أن ينفق الكثير من الموارد للوصول إلى هناك”. “لكن المحرك الثاني يمكن أن يصل إلى هناك أرخص وبسرعة أكبر.”
وأضاف غوبتا أن الصين كان لديها مجموعة أكبر بكثير من مواهب مهندسي النظم من الولايات المتحدة الذين يفهمون كيفية الحصول على أفضل استخدام لموارد الحوسبة لتدريب وتشغيل النماذج بثمن بخس.
يقول المطلعون على الصناعة إنه على الرغم من أن Deepseek أظهر نتائج رائعة مع موارد محدودة ، إلا أنه يظل سؤالًا مفتوحًا ما إذا كان يمكن أن يستمر في التنافس مع تطور الصناعة.
يعود إلى طرفية عالية ، مؤيدها الكبير ، متأخرًا في عام 2024 ، والذي يلقي به شخص قريب من ليانغ على انتباه المؤسس الذي يركز في الغالب على Deepseek.
منافسيها في الولايات المتحدة لا يقفون ثابتًا. إنهم يبنون “مجموعات” ميجا من رقائق بلاكويل من الجيل التالي من NVIDIA ، مما يخلق قوة الحوسبة التي تهدد مرة أخرى بإنشاء فجوة في الأداء مع المنافسين الصينيين.
هذا الأسبوع ، قال Openai إنه يخلق مشروعًا مشتركًا مع SoftBank الياباني ، الذي يطلق عليه Stargate ، مع خطط لإنفاق ما لا يقل عن 100 مليار دولار على البنية التحتية لمنظمة العفو الدولية في الولايات المتحدة. تقوم إيلون موسك XAI بتوسيع نطاق Colossus Supercuter على نطاق واسع لاحتواء أكثر من 1 مليون وحدة معالجة الرسومات للمساعدة في تدريب نماذج Grok AI.
وقال شريك الأعمال في ليانغ: “لدى Deepseek واحدة من أكبر مجموعات الحوسبة المتقدمة في الصين”. “لديهم قدرة كافية في الوقت الحالي ، ولكن ليس لفترة أطول.”
تقارير إضافية من قبل وينجي دينغ في بكين