افتح ملخص المحرر مجانًا
رولا خلف، محررة الفايننشال تايمز، تختار قصصها المفضلة في هذه النشرة الأسبوعية.
بالنسبة لأي شخص يرغب في تدريب ماجستير في القانون على استجابات المحللين لـ DeepSeek، Temu of ChatGPTs، فإن هذا المنشور عبارة عن متجر شامل. لقد حصلنا على جميع رسائل البريد الإلكتروني ذات الصلة بالبيع في صندوق الوارد الخاص بنا وقمنا بنسخها ولصقها بأقل قدر من التدخل.
DeepSeek هي شركة منبثقة عمرها عامين ومقرها مدينة هانغتشو تابعة لشركة تابعة لجامعة تشجيانغ تستخدم التعلم الآلي لتداول الأسهم. هدفها المعلن هو إنشاء ذكاء اصطناعي عام من أجل المتعة وليس من أجل المال. هناك مقابلة جيدة على ChinaTalk مع المؤسس Liang Wenfeng.
إليكم جوردان روتشستر من ميزوهو ليتناول القصة. . .
[O]20 يناير، [DeepSeek] أصدرت نموذجًا مفتوح المصدر (DeepSeek-R1) يتفوق على النماذج الرائدة في الصناعة في بعض معايير الرياضيات والاستدلال بما في ذلك القدرة والتكلفة والانفتاح وما إلى ذلك. وقد تصدر تطبيق Deepseek تصنيفات تنزيل التطبيقات المجانية في متاجر تطبيقات Apple في الصين والولايات المتحدة. متجاوزًا ChatGPT في قائمة التنزيلات الأمريكية.
ما الذي برز حقًا؟ وقالت شركة DeepSeek إن تطوير النموذج استغرق شهرين وأقل من 6 ملايين دولار، بناءً على التكنولوجيا الموجودة بالفعل والاستفادة من النماذج الحالية. وبالمقارنة، تنفق شركة Open AI أكثر من 5 مليارات دولار سنويًا. من الواضح أن DeepSeek اشترت 10000 شريحة NVIDIA بينما اشترت شركة Hyperscalers العديد من مضاعفات هذا الرقم. إنه يكسر بشكل أساسي رواية AI Capex إذا كانت صحيحة.
يبدو سيئا، ولكن لماذا؟ إليك جراهام هانت من جيفريز وما إلى ذلك:
مع تقديم DeepSeek أداءً مشابهًا لـ GPT-40 لجزء بسيط من قوة الحوسبة، هناك آثار سلبية محتملة على شركات البناء، حيث أن الضغط على اللاعبين الرئيسيين لتبرير خطط النفقات الرأسمالية المتزايدة باستمرار يمكن أن يؤدي في النهاية إلى مسار أقل لإيرادات وأرباح مركز البيانات نمو.
نموذج DeepSeek R1 مجاني للعب هنا، ويقوم بكل الأشياء المعتادة مثل تلخيص الأوراق البحثية في الخماسي التفاعيل وتصحيح المشكلات المنطقية بشكل خاطئ. يقول DeepSeek إن نموذج R1-Zero تم تدريبه بالكامل دون الحاجة إلى ضبط دقيق تحت الإشراف.
إليكم داميندو جاياويرا وفريق Peel Hunt مع مزيد من التفاصيل.
أولاً، تم تدريبه في أقل من 3 ملايين ساعة GPU، وهو ما يعادل تكلفة تدريب تزيد قليلاً عن 5 ملايين دولار. للحصول على السياق، يقدر المحللون أن آخر نموذج رئيسي للذكاء الاصطناعي لشركة Meta كلف تدريبه ما بين 60 إلى 70 مليون دولار. ثانيًا، رأينا أشخاصًا يقومون بتشغيل نموذج DeepSeek الكامل على أجهزة Mac الأساسية بطريقة قابلة للاستخدام، مما يؤكد كفاءته الاستدلالية (الاستخدام بدلاً من التدريب). نعتقد أنه لن يمر وقت طويل قبل أن نرى وحدات Raspberry Pi تقوم بتشغيل إصدارات مختصرة من DeepSeek. تُترجم هذه الكفاءة إلى إصدارات مستضافة من هذا النموذج بتكلفة 5% فقط من سعر OpenAI المعادل. وأخيرًا، يتم إصداره بموجب ترخيص MIT، وهو ترخيص برمجي متساهل يسمح بحريات شبه غير محدودة، بما في ذلك تعديله للاستخدام التجاري المملوك.
لا يشكل Deepseek تهديدًا غير متوقع لمجمع OpenAI الصناعي. حتى مجلة الإيكونوميست كانت قد رصدت ذلك منذ أشهر، وكانت مجلات الصناعة مثل SemiAnalogy تتحدث منذ زمن طويل عن احتمال قيام الصين بتسليع الذكاء الاصطناعي.
قد يكون هذا ما يحدث هنا، وربما لا. إليكم جوشوا مايرز، مندوب مبيعات متخصص في بنك جيه بي مورجان:
من غير الواضح إلى أي مدى تستفيد DeepSeek من وحدات معالجة الرسوميات التي يبلغ حجمها حوالي 50 ألفًا من High-Flyer (تشبه في الحجم المجموعة التي يُعتقد أن OpenAI تقوم بتدريب GPT-5 عليها)، ولكن ما يبدو لطيفًا هو أنها تقلل التكاليف بشكل كبير (تكاليف الاستدلال). بالنسبة لطراز V2 الخاص بهم، على سبيل المثال، يُزعم أنه يمثل 1/7 من طراز GPT-4 Turbo). وادعاءهم التخريبي (وإن لم يكن جديدا) ــ والذي بدأ يضرب أسماء الذكاء الاصطناعي في الولايات المتحدة هذا الأسبوع ــ هو أن “المزيد من الاستثمارات لا يعني المزيد من الإبداع”. ليانغ: “في الوقت الحالي، لا أرى أي نهج جديد، لكن الشركات الكبرى ليس لديها اليد العليا بشكل واضح. الشركات الكبرى لديها عملاء حاليون، لكن أعمال التدفق النقدي الخاصة بها تشكل أيضًا عبئًا عليها، وهذا يجعلها عرضة للاضطراب في أي وقت. وعندما سُئل عن حقيقة أن GPT5 لم يتم إصداره بعد: “OpenAI ليس إلهًا، ولن يكون بالضرورة في المقدمة دائمًا.”
من الأفضل ألا يخبر أحد آلتمان بذلك. العودة إلى ميزوهو:
لماذا يأتي هذا في لحظة مؤلمة؟ يحدث هذا بعد أن رأينا للتو دفع Texas Hold'em 'All In' للرقائق فيما يتعلق بإعلان Stargate (حوالي 500 مليار دولار أمريكي بحلول عام 2028E) ورفع Meta رأس المال الرأسمالي رسميًا إلى نطاق 60-65 مليار دولار أمريكي لتوسيع نطاقه Llama وبالطبع إعلان MSFT بقيمة 80 مليار دولار…. كانت الأسواق تحاول حرفيًا نمذجة طلب Stargate المعلن لحوالي 2 مليون وحدة من NVDA عندما يكون إجمالي إنتاجها فقط 6 مليون….. (انخفضت قيمة التداول الأوروبي لشركة Nvidia بنسبة 9% هذا الصباح، وانخفض سعر Softbank بنسبة 7%). تتساءل الأسواق الآن عما إذا كانت هذه هي لحظة ظهور فقاعة الذكاء الاصطناعي للأسواق أم لا (أي فقاعة الدوت كوم لشركة سيسكو). Nvidia هي أكبر شركة فردية بوزن S&P500 بنسبة 7%.
وجيفريز مرة أخرى.
1) نرى على الأقل استراتيجيتين محتملتين للصناعة. ومن المرجح أن يؤدي ظهور نماذج تدريب أكثر كفاءة من الصين، والتي كانت مدفوعة إلى الابتكار بسبب القيود المفروضة على المعروض من الرقائق، إلى زيادة حدة السباق على هيمنة الذكاء الاصطناعي بين الولايات المتحدة والصين. السؤال الرئيسي لمنشئي مراكز البيانات هو ما إذا كان سيستمر في كونه مركزًا أم لا “البناء بأي ثمن” استراتيجية مع تحسينات متسارعة للنموذج، أو ما إذا كان التركيز يتحول الآن نحو زيادة كفاءة رأس المال، مما يضغط على الطلب على الطاقة وميزانيات النفقات الرأسمالية من اللاعبين الرئيسيين في مجال الذكاء الاصطناعي. على المدى القريب، سيفترض السوق الخيار الأخير.
2) تقليل المخاطر على المدى القريب، والأرباح أقل تأثراً. على الرغم من أن الأسماء المكشوفة في مراكز البيانات معرضة للتأثر بالميول، إلا أنه لا يوجد تأثير فوري على أرباح تغطيتنا. تنطبق أي تغييرات على خطط النفقات الرأسمالية مع تأثير متأخر بالنظر إلى المدة (> 12 مليونًا) والتعرض في دفاتر الطلبات (~ 10% للسعر الساخن). نحن نرى مخاطر محدودة لإجراء تعديلات أو إلغاءات للطلبات الحالية ونتوقع في هذه المرحلة تحولًا في التوقعات إلى عائد استثمار أعلى على الاستثمارات الحالية مدفوعة بنماذج أكثر كفاءة. بشكل عام، ما زلنا متفائلين بشأن هذا القطاع حيث يستفيد القادة على نطاق واسع من الخندق الآخذ في الاتساع وارتفاع قوة التسعير.
على الرغم من أنها الصينية، لذلك الناس متشككون. إليكم عاطف مالك من سيتي:
في حين أن إنجاز DeepSeek يمكن أن يكون رائدًا، إلا أننا نشكك في فكرة أن إنجازاته تمت دون استخدام وحدات معالجة الرسوميات المتقدمة لضبطه و/أو بناء LLMs الأساسية التي يعتمد عليها النموذج النهائي من خلال تقنية التقطير. في حين أن هيمنة الشركات الأمريكية على نماذج الذكاء الاصطناعي الأكثر تقدمًا يمكن أن تتعرض للتحدي، إلا أننا نقدر أنه في بيئة أكثر تقييدًا لا محالة، يعد وصول الولايات المتحدة إلى رقائق أكثر تقدمًا ميزة. وبالتالي، لا نتوقع أن تبتعد شركات الذكاء الاصطناعي الرائدة عن وحدات معالجة الرسومات الأكثر تقدمًا والتي توفر $/TFLOPs أكثر جاذبية على نطاق واسع. نحن نرى إعلانات النفقات الرأسمالية للذكاء الاصطناعي الأخيرة مثل Stargate بمثابة إشارة إلى الحاجة إلى شرائح متقدمة.
ومايرز في جيه بي مورجان:
قبل كل شيء، تم صنع الكثير من الأوراق البحثية التي قدمتها شركة DeepSeek، وكفاءة نماذجها. من غير الواضح إلى أي مدى تستفيد DeepSeek من وحدات معالجة الرسوميات التي يبلغ حجمها حوالي 50 ألفًا من High-Flyer (تشبه في الحجم المجموعة التي يُعتقد أن OpenAI تقوم بتدريب GPT-5 عليها)، ولكن ما يبدو لطيفًا هو أنها تقلل التكاليف بشكل كبير (تكاليف الاستدلال). بالنسبة لطراز V2 الخاص بهم، على سبيل المثال، يُزعم أنه يمثل 1/7 من طراز GPT-4 Turbo).
أشياء مخيفة لـ Mag7 بالطبع، لكن هل هذا سبب وجيه لعمليات بيع واسعة النطاق في السوق؟ الذكاء الاصطناعي الصيني الرخيص يعني المزيد من فوائد الإنتاجية، وانخفاض تكاليف البناء والتسارع نحو نظرية أندريسن للوفرة، لذلك ربما. . . أخبار جيدة على المدى الطويل؟ مايرز من جي بي مورجان مرة أخرى:
لا يذهلني هذا بشأن نهاية التوسع أو عدم وجود حاجة لمزيد من الحوسبة، أو أن الشخص الذي يستثمر أكبر قدر من رأس المال لن يفوز (تذكر، الشيء الكبير الآخر الذي حدث بالأمس هو أن مارك زوكربيرج تعزيز النفقات الرأسمالية لمنظمة العفو الدولية ماديًا). بدلاً من ذلك، يبدو أن الأمر يتعلق بحظر التصدير الذي يجبر المنافسين عبر المحيط الهادئ على زيادة الكفاءة: “تمكن DeepSeek V2 من تحقيق كفاءة تدريب مذهلة مع أداء نموذجي أفضل من النماذج المفتوحة الأخرى بمعدل 1/5 من حساب Meta's Llama 3 70B. بالنسبة لأولئك الذين يتابعون المسار، يتطلب تدريب DeepSeek V2 نسبة 1/20 من تقلبات GPT-4 بينما لا يكون الأداء بعيدًا جدًا. إذا تمكن DeepSeek من تقليل تكلفة الاستدلال، فسيتعين على الآخرين القيام بذلك أيضًا، ونأمل أن يعوض الطلب أكثر من ذلك بمرور الوقت.
هذه أيضًا وجهة نظر المحلل نصف النهائي تيتسويا واداكي في بنك مورجان ستانلي، وهو الأكثر حماسًا للذكاء الاصطناعي بين البنوك الكبرى.
لم نؤكد صحة هذه التقارير، ولكن إذا كانت دقيقة، وكان من الممكن بالفعل تطوير LLM المتقدمة مقابل جزء صغير من الاستثمار السابق، فيمكننا أن نرى الذكاء الاصطناعي التوليدي يعمل في نهاية المطاف على أجهزة كمبيوتر أصغر وأصغر (تقليص الحجم من أجهزة الكمبيوتر العملاقة إلى محطات العمل) وأجهزة الكمبيوتر المكتبية، وأخيرا أجهزة الكمبيوتر الشخصية) ويمكن أن تستفيد صناعة الأغراض الخاصة من الزيادة المصاحبة في الطلب على المنتجات ذات الصلة (الرقائق وأجهزة الكمبيوتر ذات الأغراض الخاصة) مع انتشار الطلب على الذكاء الاصطناعي التوليدي.
وقشر هانت مرة أخرى:
ونحن نعتقد أن تأثير تلك المزايا سيكون ذو شقين. على المدى المتوسط إلى الطويل، نتوقع أن تسير البنية التحتية لـ LLM في نفس طريق البنية التحتية للاتصالات وتصبح “تكنولوجيا سلعة”. يعتمد التأثير المالي على أولئك الذين ينشرون النفقات الرأسمالية للذكاء الاصطناعي اليوم على التدخل التنظيمي – الذي كان له تأثير كبير على شركات الاتصالات. إذا فكرنا في الذكاء الاصطناعي باعتباره “طبقة بنية تحتية تكنولوجية” أخرى، مثل الإنترنت والهاتف المحمول والسحابة، فمن الناحية النظرية يجب أن يكون المستفيدون هم الشركات التي تستفيد من تلك البنية التحتية. وفي حين أننا نعتبر أمازون، وجوجل، ومايكروسوفت بنية أساسية سحابية، فقد نشأ هذا بسبب الحاجة إلى دعم نماذج أعمالهم الحالية: التجارة الإلكترونية، والإعلانات، وبرمجيات العاملين في مجال المعلومات. تختلف البنية التحتية لـ LLM من حيث أنه، مثل البنية التحتية للسكك الحديدية وشركات الاتصالات، يتم بناؤها قبل الملاءمة الحقيقية للمنتج/السوق.
سنواصل الإضافة إلى هذا المنشور مع استمرار وصول رسائل البريد الإلكتروني.
مزيد من القراءة:
– الشركات الصينية الناشئة مثل DeepSeek تتحدى عمالقة الذكاء الاصطناعي العالميين (FT)
– كيف صدمت شركة DeepSeek الصينية الناشئة في مجال الذكاء الاصطناعي وادي السيليكون (FT)