أسقطت الأنثروبور التي تتخذ من سان فرانسيسكو مقراً لها للتو الجيل الرابع من نماذج Claude AI ، والنتائج معقدة. في حين أن Google تدفع Windows Windows بعد مليون رمز و Openai تقوم بإنشاء أنظمة متعددة الوسائط التي ترى وتسمع وتتحدث ، وعلق الأنثروبور مع نفس الحد الأقصى 200000 ونهج النص فقط. إنه الآن الشخص الغريب بين شركات الذكاء الاصطناعى الكبرى.

يشعر التوقيت المتعمد – أعلنت Google عن Gemini هذا الأسبوع أيضًا ، وقد كشفت Openai عن وكيل ترميز جديد يعتمد على نموذج المخطوطة الملكية. إجابة كلود؟ النماذج المختلطة التي تتحول بين الأوضاع المنطقية والأوضاع غير المعتادة اعتمادًا على ما ترميه عليها-تُسلم ما يتوقع Openai إحضاره كلما قاموا بإصدار GPT-5.

ولكن إليك شيء لمستخدمي واجهة برمجة التطبيقات للنظر بجدية: أنثروبور يتقاضى أسعارًا متميزة لتلك الترقية.

الصورة: T3.gg

ومع ذلك ، لا يزال تطبيق chatbot هو نفسه عند 20 دولارًا مع Claude Max بسعر 200 دولار في الشهر ، مع حدود استخدام أعلى 20x.

وضعنا النماذج الجديدة من خلال خطواتها عبر مهام الكتابة الإبداعية والترميز والرياضيات والمنطق. تحكي النتائج قصة مثيرة للاهتمام مع تحسينات هامشية في بعض المناطق ، والتحسن المثير للدهشة في الآخرين ، وتحول واضح في أولويات الأنثروبور بعيدًا عن الاستخدام العام نحو الميزات التي تركز على المطورين.

إليكم كيف أجري كل من كلود سونيت 4 و كلود أوبوس 4 في اختباراتنا المختلفة. (يمكنك التحقق منها ، بما في ذلك المطالبات والنتائج لدينا ، في مستودع GitHub.)

الكتابة الإبداعية

تحدد قدرات الكتابة الإبداعية ما إذا كانت نماذج الذكاء الاصطناعى يمكنها إنتاج روايات جذابة ، والحفاظ على نغمة متسقة ، ودمج العناصر الواقعية بشكل طبيعي. هذه المهارات مهمة لمبدعي المحتوى والمسوقين وأي شخص يحتاج إلى مساعدة منظمة العفو الدولية في سرد ​​القصص أو الكتابة المقنعة.

اعتبارًا من الآن ، لا يوجد نموذج يمكنه التغلب على كلود في هذا الاختبار الشخصي (لا تفكر في Longwriter ، بالطبع). لذلك ليس من المنطقي مقارنة كلود ضد خيارات الطرف الثالث. لهذه المهمة ، قررنا وضع Sonnet و Opus وجهاً لوجه.

لقد طلبنا من النماذج أن تكتب قصة قصيرة عن شخص يسافر في الوقت المناسب لمنع كارثة ولكن ينتهي به الأمر إلى إدراك أن أفعالهم من الماضي كانت في الواقع جزءًا من الأحداث التي جعلت الوجود يميل نحو ذلك المستقبل المحدد. أضافت المطالبة بعض التفاصيل التي يجب مراعاتها وأعطت النماذج ما يكفي من الحرية والإبداع لإعداد قصة كما يرون مناسبة.

307a0e90843275b54ee6773203b5aee2e842b5f5

أنتجت كلود سونيت 4 نثرًا حيويًا مع أفضل التفاصيل الجوية والفروق النفسية. وضع النموذج الأوصاف الغامرة وقدم قصة مقنعة ، على الرغم من أن النهاية لم يتم طلبها بالضبط – لكنها تناسب السرد والنتيجة المتوقعة.

بشكل عام ، فإن البناء السردي لـ Sonnet المتوازن ، والتأمل ، والرؤى الفلسفية حول الحتمية التاريخية.

النتيجة: 9/10– أفضل من كلود 3.7 السوناتة

أسس كلود أوبوس 4 خيالها المضاربة في سياقات تاريخية موثوقة ، مما يشير إلى وجهات نظر العالم الأصليين ومجتمع Tupi قبل الاستعمار مع الاهتمام الدقيق بالقيود الثقافية. مواد المصدر المدمجة النموذجية بشكل طبيعي وقدمت قصة أطول من Sonnet ، دون أن تتمكن من مطابقة الذوق الشعري ، للأسف.

كما أظهر شيئًا مثيرًا للاهتمام: بدأ السرد بشكل أكثر وضوحًا وكان أكثر غامرة من ما قدمه السوناتة ، ولكن في مكان ما حول الوسط ، تحولت إلى التسرع في تطور المؤامرة ، مما يجعل النتيجة كلها مملة ويمكن التنبؤ بها.

النتيجة: 8/10

Sonnet 4 هو الفائز في الكتابة الإبداعية ، على الرغم من أن الهامش ظل ضيقًا. الكتاب ، حذار: على عكس النماذج السابقة ، يبدو أن الأنثروبور لم يعط الأولوية لتحسينات الكتابة الإبداعية ، مع تركيز جهود التطوير في مكان آخر.

جميع القصص متوفرة هنا.

الترميز

يقيس تقييم الترميز ما إذا كان يمكن لـ AI إنشاء برامج وظيفية يمكن صيانتها تتبع أفضل الممارسات. تؤثر هذه القدرة على المطورين باستخدام الذكاء الاصطناعى لتوليد الكود ، وتصحيح الأخطاء ، والقرارات المعمارية.

يعتبر Gemini 2.5 Pro ملك الترميز المدعوم من الذكاء الاصطناعي ، لذلك اختبرناه ضد كلود أوبوس 4 مع التفكير الممتد.

نحن نتحلق تعليماتنا للعبة-روبوت يجب أن يتجنب الصحفيين في طريقه للاندماج مع الكمبيوتر وتحقيق AGI-واستخدموا تكرارًا إضافيًا لإصلاح الحشرات وتوضيح جوانب مختلفة من اللعبة.

badc5c10c3f5f3e68c550776738b40efdca92877

ابتكر كلود أوبوس لعبة خلسة من أعلى إلى أسفل مع ميكانيكا متطورة ، بما في ذلك الموجات الصوتية الديناميكية ، وحالات AI التحقدية ، وانسداد مخروط الرؤية. تميز التنفيذ عناصر اللعب الغنية: استجاب الصحفيون للأصوات من خلال أعلام Heardsound ، وعقبات تمنع حسابات خط الرؤية ، وخلق التوليد الإجرائي مستويات فريدة من نوعها.

النتيجة: 8/10

أنتجت Gemini من Google منصة لتمرير جانبي مع بنية نظافة باستخدام فئات ES6 والثوابت المسمى.

لم تكن اللعبة وظيفية بعد تكرارين ، لكن التنفيذ مفصل يتعلق بفعالية: المستوى. على الرغم من أن اللعب ظل أبسط من إصدار كلود ، إلا أن الهيكل القابل للصيانة ومعايير الترميز المتسقة حصلوا على علامات عالية بشكل خاص لقدرة القراءة والقابلية للصيانة.

be8696829956aca7b3bfe2c2cbcf2374d7276dbd

الحكم: فاز كلود: لقد قدمت وظائف اللعب الفائقة التي يفضلها المستخدمون.

ومع ذلك ، قد يفضل المطورون الجوزاء على الرغم من كل هذا ، حيث أنشأ رمز نظافة يمكن تحسينه بسهولة أكبر.

المطالبة ورموزنا متوفرة هنا. ويمكنك النقر هنا لتشغيل اللعبة التي تم إنشاؤها مع كلود.

التفكير الرياضي

اختبارات حل المشكلات الرياضية قدرة نماذج الذكاء الاصطناعي على التعامل مع الحسابات المعقدة ، وإظهار خطوات التفكير ، والوصول إلى الإجابات الصحيحة. هذا مهم للتطبيقات التعليمية ، والبحث العلمي ، وأي مجال يتطلب تفكيرًا حسابيًا دقيقًا.

قارنا أحدث نموذج للتفكير في كلود وفوكاي ، O3 ، يطلب من النماذج حل مشكلة ظهرت في معيار FrontierMath – المصمم على وجه التحديد ليصعب على النماذج حلها:

“بناء درجة 19 متعدد الحدود p (x) ∈ C[x] مثل x: = {p (x) = p (y)} ⊂ p1 × p1 لديها ما لا يقل عن 3 مكونات (ولكن ليس كلها خطية) غير قابلة للاختزال على C. اختر p (x) لتكون غريبة ، مونيك ، لها معاملات حقيقية ومعامل خطي -19 وحساب p (19). “

عرضت كلود أوبوس 4 عملية التفكير الكاملة عند مواجهة التحديات الرياضية الصعبة. سمحت الشفافية للمقيمين بتتبع مسارات المنطق وتحديد مكان الخطأ. على الرغم من إظهار كل العمل ، فشل النموذج في تحقيق دقة مثالية.

4c4d463934bbb18cca3ee206e59d5aa9131f7c50

حقق طراز O3 Openai دقة بنسبة 100 ٪ على المهام الرياضية المتماثلة ، مما يمثل المرة الأولى التي حل فيها أي نموذج لمشاكل الاختبار تمامًا. ومع ذلك ، اقتطمت O3 شاشة التفكير ، مما يدل فقط على الإجابات النهائية دون خطوات وسيطة. منع هذا النهج تحليل الخطأ وجعل من المستحيل على المستخدمين التحقق من المنطق أو التعلم من عملية الحل.

2c06f216eea37d653e3201168e4621a8f5b48e77

الحكم: فاز Openai O3 بفئة التفكير الرياضي من خلال دقة مثالية ، على الرغم من أن نهج كلود الشفاف قدم مزايا تعليمية. على سبيل المثال ، يمكن للباحثين قضاء وقت أسهل في التقاط الفشل أثناء تحليل سلسلة الفكر الكاملة ، بدلاً من الاضطرار إلى الوثوق تمامًا بالنموذج أو حل المشكلة يدويًا لتأكيد النتائج.

يمكنك التحقق من سلسلة الفكر كلود 4 هنا.

التفكير غير المائي والاتصال

بالنسبة لهذا التقييم ، أردنا اختبار قدرة النماذج على فهم التعقيدات ، وصياغة الرسائل الدقيقة ، ومصالح التوازن. تثبت هذه المهارات ضرورية لاستراتيجية العمل ، والعلاقات العامة ، وأي سيناريو يتطلب تواصلًا بشريًا متطورًا.

لقد قدمنا ​​تعليمات Claude و Grok و ChatGPT لوضع استراتيجية اتصال واحدة تعالج في وقت واحد خمس مجموعات من أصحاب المصلحة المختلفة حول موقف حرج في مركز طبي كبير. كل مجموعة لديها وجهات نظر مختلفة إلى حد كبير ، والحالات العاطفية ، واحتياجات المعلومات ، وتفضيلات التواصل.

أظهر كلود تفكيرًا استراتيجيًا استثنائيًا من خلال إطار مراسلة من ثلاثة أرقام لأزمة فدية المستشفى: سلامة المريض أولاً ، والاستجابة النشطة ، ومستقبل أقوى. تضمنت الاستجابة مخصصات محددة للموارد بتمويل طارئ بقيمة 2.3 مليون دولار ، وجداول زمنية مفصلة لكل مجموعة أصحاب المصلحة ، والتكيفات الحساسة ثقافياً للسكان متعددة اللغات. تلقى مخاوف عضو مجلس الإدارة الفردي اهتمامًا مخصصًا مع الحفاظ على اتساق الرسائل. قدم النموذج مجموعة جيدة من البيانات الافتتاحية للاستيلاء على فكرة عن كيفية التعامل مع كل جمهور.

1ff6f69b7ac4335791c94b8cfaad7ff360ae59de

كان ChatGPT جيدًا أيضًا في المهمة ، ولكن ليس في نفس المستوى من التفاصيل والتطبيق العملي. مع توفير أطر عمل صلبة مع مبادئ أساسية واضحة ، اعتمد GPT4.1 على تباين النغمة أكثر من تكيف المحتوى الموضوعي. كانت الإجابات واسعة النطاق ومفصلة ، وتتوقع الأسئلة والمزاج ، وكيف يمكن أن تؤثر أفعالنا على تلك التي يتم معالجتها. ومع ذلك ، فإنه يفتقر إلى تخصيصات موارد محددة ، وتسليمات مفصلة ، وغيرها من التفاصيل التي قدمها كلود.

0130226c2868af7f964bc12c9c44061948dfc28b

الحكم: كلود يفوز

يمكنك التحقق من نتائج وسلسلة التفكير لكل نموذج ، هنا.

الإبرة في كومة القش

تحدد إمكانات استرداد السياق مدى فعالية نماذج الذكاء الاصطناعى تحديد معلومات محددة ضمن مستندات أو محادثات مطولة. تثبت هذه المهارة أمرًا بالغ الأهمية للبحث القانوني ، وتحليل المستندات ، ومراجعات الأدب الأكاديمي ، وأي سيناريو يتطلب استخراج معلومات دقيق من أحجام النص الكبيرة.

لقد اختبرنا قدرة كلود على تحديد معلومات محددة مدفونة ضمن نوافذ السياق الأكبر تدريجياً باستخدام منهجية “الإبرة في كومة القش” القياسية. تضمن هذا التقييم وضع جزء من المعلومات المستهدفة في مواقع مختلفة داخل وثائق ذات أطوال مختلفة وقياس دقة الاسترجاع.

حدد كلود Sonnet 4 و Opus 4 بنجاح الإبرة عند تضمينه في كومة قش رمزية 85000. أظهرت النماذج إمكانات استرجاع موثوقة عبر مواقع التوظيف المختلفة ضمن نطاق السياق هذا ، مع الحفاظ على الدقة ما إذا كانت المعلومات المستهدفة قد ظهرت في بداية الوثيقة أو منتصفها أو نهاية المستند. ظلت جودة الاستجابة متسقة ، مع توفير النموذج اقتباسات دقيقة والسياق ذي الصلة حول المعلومات التي تم استردادها.

8ef12c77d24eb2ed3c15745d3d8be78fecbf8db8

ومع ذلك ، فإن أداء النماذج وصل إلى قيود صارمة عند محاولة معالجة اختبار كومة القش المميز البالغ 200000. لم يتمكنوا من إكمال هذا التقييم لأن حجم المستند تجاوز الحد الأقصى لسعة نافذة السياق البالغ 200000 رمز. يعد هذا قيدًا مهمًا مقارنة بالمنافسين مثل Google's Gemini ، والذي يتولى نوافذ السياق التي تتجاوز مليون رمز ، ونماذج Openai مع إمكانيات معالجة أكبر بكثير.

هذا القيد له آثار عملية على المستخدمين الذين يعملون مع وثائق مكثفة. قد يجد المهنيون القانونيون تحليل العقود الطويلة أو الباحثين معالجة الأوراق الأكاديمية الشاملة أو المحللين الذين يراجعون التقارير المالية التفصيلية قيود سياق كلود. يشير عدم القدرة على معالجة اختبار الرمز المميز البالغ 200000 الكامل إلى أن المستندات الواقعية التي تقترب من هذا الحجم يمكن أن تؤدي إلى اقتطاع أو تتطلب تجزئة يدويًا.

الحكم: الجوزاء هو نموذج أفضل لمهام السياق الطويلة

يمكنك التحقق من كل من الحاجة ومكافأة القش ، هنا.

خاتمة

كلود 4 رائع ، وأفضل من أي وقت مضى – لكنه ليس للجميع.

سيكون مستخدمي الطاقة الذين يحتاجون إلى إبداعهم وترميزهم سعداء للغاية. إن فهمها للديناميات الإنسانية يجعلها مثالية لاستراتيجيات الأعمال ، ومحترفي الاتصالات ، وأي شخص يحتاج إلى تحليل متطور لسيناريوهات أصحاب المصلحة المتعددة. تفيد عملية التفكير الشفافة للنموذج المعلمين والباحثين الذين يحتاجون إلى فهم مسارات صنع القرار من الذكاء الاصطناعي.

ومع ذلك ، قد يجد المستخدمون المبتدئون الذين يريدون تجربة الذكاء الاصطناعى الكامل فريق chatbot باهتة بعض الشيء. لا يولد مقطع فيديو ، ولا يمكنك التحدث إليه ، والواجهة أقل تلميعًا مما يمكنك العثور عليه في الجوزاء أو ChatGPT.

يؤثر قيود نافذة سياق الرمز المميز البالغ 200000 على معالجة مستخدمي كلود على معالجة المستندات الطويلة أو الحفاظ على المحادثات الممتدة ، كما أنه ينفذ حصة صارمة للغاية قد تؤثر على المستخدمين الذين يتوقعون جلسات طويلة.

في رأينا ، إنها “نعم” صلبة للكتاب المبدعين والمبرممين. قد تحتاج أنواع أخرى من المستخدمين إلى بعض الاعتبار ، ومقارنة الإيجابيات والسلبيات ضد البدائل.

حرره أندرو هايوارد

شاركها.