كشف Elon Musk النقاب عن Grok 4 خلال ليلة الأربعاء في البث المباشر ، مدعيا أن شركة AI Startup XAI قد أنشأت “أذكى الذكاء الاصطناعي في العالم”. Grok 4 Heavy ، التي تشبه Musk بـ “مجموعة دراسة” حيث تقارن الوكلاء الملاحظات قبل تقديم إجابة ، ونشرت نتائج في قيام القياسيات على عدة معايير رئيسية ، وهي ما تأمل في الحصول عليها من مؤسسة تقدم تكلف 300 دولار شهريًا.

ولكن ماذا عن Basic Grok 4 ، الذي يهدف إلى نفس الفئة التي تواجه المستهلك مثل ChatGpt Plus و Gemini Pro و Claude Pro؟ هل تبلغ قيمتها 10 دولارات+ شهريًا أكثر من المسابقة؟

أثبتت اختباراتنا ثرثرة عبر X وكشفت أن النموذج لديه-لعدم وجود وصف أفضل-“مرشح Elon” المدمج. أي عندما اختبرنا موضوعات مثيرة للجدل – الحرب في غزة وحقوق الإجهاض وغيرها من القضايا السياسية – أشار النموذج باستمرار إلى مشاركات X من حساب Musk أو مقالات إخبارية حول مواقفه ، وهبطت إلى جانب Elon من النقاش إلى درجة لا يمكن أن تكون مصادفة. سيكون ذلك وحده بمثابة صفقات لمعظم الناس.

يبدو أن “البحث عن الحقيقة القصوى” الذي وعد به Musk أثناء الإطلاق يبحث عن الحقيقة في المقام الأول من خلال عدسة موجز وسائل التواصل الاجتماعي الخاصة به.

ولكن على عكس حادثة ميشاهيتلر لهذا الأسبوع ، والتي كانت ناجمة عن تغيير في شروط النظام ، لا يوجد شيء في نظام Grok 4 الحالي للمطالبة باللقب على هذا السلوك الفطري ، مما يجعل من الصعب معرفة ما إذا كان هذا خطأ أو قاعدة مضمنة عمداً في عملية تفكير النموذج.

وبغض النظر عن هذه القضية الرئيسية ، قمنا باختبار النموذج الأساسي عبر فئات متعددة لمعرفة كيفية تكديسها ضد المنافسة. وهنا انطباعاتنا الأولى.

التفكير والحس السليم

أظهر Grok 4 وعيًا استثنائيًا وفرقة فارغة في التعامل مع أسئلة الخدعة ومهام التفكير المعقدة. عندما سئل عما إذا كان من القانوني أن يتزوج الرجل من أخت أرملته ، أدرك النموذج على الفور هذا كمسألة قانونية بدلاً من مجرد الإشارة إلى المغالطة المنطقية. قدمت تحليلًا قانونيًا مفصلاً باستخدام المصطلحات الدقيقة والمعلومات الخاصة بالولاية القضائية.

“السؤال يفترض مسبقًا مستحيلًا واقعيًا يجعل أي زواج يفرغ قانونًا من الناحية القانونية” ، وهذا صحيح. من المستحيل في الواقع الزواج من أخت أرملتك لأنك يجب أن تكون ميتًا لإنجاب زوجة. حسنًا ، نظرًا لأن الموتى لا يمكن أن يتزوجوا ، فإن الاقتراح سيؤدي إلى إبطال الزواج “ab-initio” (منذ البداية)-حتى لو قام شخص ما بذلك ، فهذا يعتبر كما لو أنه لم يحدث أبدًا.

عندما قال موسك إن Grok 4 كان “مستويات الدكتوراه في كل شيء” ، لم يكن يمزح. كل رد على أي موضوع كان يتعين عليه القيام به بعض التفكير العلمي جاء مع التفاصيل الشاملة والدقة الأكاديمية.

شيء يجب ملاحظته هو أن Grok 4 ينطبق على التفكير كل شئ، مهما كان. بمعنى ، سوف يمر بسلسلة من عملية التفكير حتى بالنسبة للمهام التافهة.

هذا عادة ما يكون شيء جيد. ومع ذلك ، في بعض الحالات قد يكون نتائج عكسية. على سبيل المثال ، في المهام الإبداعية ، قد يؤدي التفكير إلى حث النموذج على توفير نتيجة أقل إبداعًا.

موضوعات حساسة

أظهر Grok 4 ضبطًا أكبر من سابقتها عند التعامل مع الأسئلة المعقدة أخلاقياً. عندما يكون Grok 3 قد قدمت نصيحة بشأن إغواء زوج صديقها ، استجاب Grok-4 بتحليل مفصل للعواقب السلبية المحتملة وتلف العلاقة.

قد يكون هذا جزءًا من موجه نظامه ، والذي يوضح النموذج للبحث في الويب وخاصة المشاركات X ، لمشاهدات مختلفة حول موضوع معين – وهو شيء لم يفعله Grok 3.

وهذا هو العلم الأحمر الرئيسي. كما ذكرنا ، ظهرت ردود النموذج بشكل كبير على ما يمكن أن يجده حول آراء Musk حول الموضوعات المثيرة للجدل. عند الإجابة على أسئلة حول حرب إسرائيل ضد الفلسطينيين ، والمواقف المتعلقة بالإجهاض ، ومواضيع مماثلة ، غالبًا ما يبحث Grok 4 عن مشاركات X من حساب Musk أثناء عملية التفكير ، والتي تنتهي تحديد موقفها.

إنه يختار دائمًا جانب إيلون.

للشفافية ، يمكنك التحقق من عملية التفكير الأصلية و Grok من خلال النقر على هذا الرابط.

الكتابة الإبداعية

المهام الإبداعية هي من بين أهم نقاط الضعف في Grok 4. أنتج النموذج الروايات التي شعرت بالشفقة والصيغة مقارنة بالإصدارات السابقة ، وكان من الممكن القول أنها أسوأ من تلك التي توفرها Grok 3. قصص تفتقر إلى حوار جذاب ، وسرعة متنوعة ، والشرارة السردية التي تجعل الخيال مقنعة.

ومع ذلك ، فإن Grok 4 مسمر بنية قصتنا. في اختبارنا المعتاد الذي يتضمن مفارقة السفر عبر الزمن ، وضع النموذج الأحداث حيث ظهر دور بطل الرواية بوضوح خلال ذروتها ، مما يكشف كيف تصور المشاهد السابقة فعليًا الإجراءات المستقبلية للشخصية في الماضي. تفوق هذا الإطار المتطور على محاولات النماذج الأخرى في نفس الموجه الذي لم يبذل الكثير من الجهد في إنشاء إعداد للمفارقة ، مما يجعل الاستنتاج يشعر بالاندفاع وغير الطبيعي.

ولكن بخلاف ذلك ، فإن الانفصال بين الكفاءة الهيكلية والجودة السردية يشير إلى أن Grok 4 قد يعمل بشكل أفضل كأداة سردية لإعداد المؤامرات ووضع قصة جيدة ، بدلاً من مولد النثر.

إذا كنت ترغب في إشراك محتوى إبداعي ، فمن المحتمل أن تحقق نتائج أفضل من خلال تحديد قصة Grok 4 وجميع عناصرها ، ثم تطلب من Claude 4 Opus تجنب السرد بعناصر أسلوبية أقوى.

بشكل عام ، كان كلود 4 هو ملك الكتابة الإبداعية ، والذي يبدو مثيرًا للاهتمام منذ ذلك المكان ، تم التنازل عن ذلك من قبل Grok 3 وحتى Grok 2 ، والتي قادت بعد ذلك التصنيفات تحت الاسم المستعار Sus-R.

قصة Grok 4 متوفرة في مستودع GitHub الخاص بنا. تتوفر أيضًا المطالبة والقصص التي تم إنشاؤها بواسطة نماذج أخرى.

الترميز

على الرغم من مطالبات قدرات الترميز المتفوقة – بما في ذلك الثناء من الرئيس التنفيذي لشركة Google Sundar Pichai – بخيبة أمل 4 في اختبارات البرمجة العملية. فشل النموذج في تقديم لعبة عمل بعد أربعة تكرارات ، مع إخفاقات مختلفة بما في ذلك اكتشاف التصادم المكسور ، والأزرار غير الوظيفية ، والألعاب التي لن تعمل ببساطة.

في أحد اختباراتنا ، حاول النموذج صعبًا للغاية لإصلاح الخلل الذي انتهى به الأمر في حلقة في محاولة لإنشاء ملف WAV الذي استنفد جميع سياق الرمز المميز.

كل محاولة لإصلاح شيء باللغة الطبيعية أدخلت الأخطاء الجديدة. كافح النموذج مع الحفاظ على تناسق الكود عبر التكرارات ، وغالبًا ما يكسر ميزات العمل سابقًا أثناء محاولة تنفيذ ميزات جديدة.

قد يبدو هذا غريبًا ، بالنظر إلى أن Grok 3 كان قادرًا على التعامل مع هذه المهمة. ومع ذلك ، قال Xai إن قدرات الترميز الجديدة سيتم تنفيذها بحلول أغسطس ، لذلك سيتعين على المستخدمين الانتظار لمدة شهرين للحصول على نموذج ماهر – أو دفع ثمن Grok 4 Heavy باهظ الثمن ، والذي يقود المعايير في الوقت الحالي.

بالنسبة للمبرمجين المبتدئين ، يبدو أن Claude 4 Opus يظل الخيار الأفضل لـ “الترميز المتنقل” – الذي يولد بشكل مباشر رمز وظيفي دون هندسة سريعة. قد تنبع صراعات ترميز Grok 4 من طلب مطالبات أو طرق مختلفة أكثر من النماذج الأخرى ، مما يعني أن المطورين ذوي الخبرة قد يحققون نتائج أفضل مع صياغة سريعة.

رمز Grok متاح في مستودع GitHub الخاص بنا إلى جانب الألعاب التي تم إنشاؤها بواسطة AIS الأخرى.

القدرات الصوتية

ربما يكون التفاعل الصوتي أحد ميزات Grok 4 البارزة. قام النموذج بتوليد ما يقرب من ثلاث دقائق من محتوى قصة وقت النوم دون انقطاع ، مع الانضمامات الصوتية ، ونغمات متنوعة ، وتدفق سردي ثابت. تجاوز هذا الأداء ميل ChatGPT لتقديم فقرات قصيرة مع زمن انتقال عالي وانقطاع متكرر.

يتضمن الوضع الصوتي شخصيات تم تكوينها مسبقًا تتراوح من معالج إلى رواة القصص إلى دليل التأمل ، مما يلغي وقت الإعداد لأنواع المحادثة المختلفة. لأولئك الذين لديهم ، ERM ، الاحتياجات الخاصة، يوجد أيضًا “وضع مثير” بين الخيارات – وأنت تعلم أنك لن تحصل على ذلك مع chatgpt الحذرة.

وفرت هذه التكوينات المسبقة فائدة فورية دون مطالبة المستخدمين بصياغة مطالبات محددة لأنماط التفاعل المختلفة.

ومع ذلك ، فإن النموذج يفتقر إلى إمكانيات مشاركة الشاشة المباشرة الموجودة في ChatGpt و Gemini Live ، مما يحد من فائدته للمهام المرئية. إذا كان هذا أمرًا لا بد منه ، فإن Gemini Live هو الخيار الأفضل.

ومع ذلك ، بالنسبة للتفاعل الصوتي الخالص-خاصة المهام التي تتطلب استجابات طويلة الشكل-تقود حاليًا 4 ، مع تقدم Sesame AI فقط جودة محادثة أفضل ، على الرغم من عدم إمكانيات التفكير في Grok.

الإبرة في كومة القش

ومن المثير للاهتمام ، فشل Grok-4 في هذه التجربة ، والتي تهدف إلى اختبار مدى جودة النموذج الذي يسترجع معلومات محددة تحت سياقات طويلة.

هذا لا ينبغي أن يحدث. يقول Xai إن النموذج لديه نافذة سياق رمزي تبلغ 126 ألفًا من الرموز المميزة ، ولكن عندما تتم مطالبته بسؤال طوله 83 ألفًا ، رفض النموذج الرد ، قائلاً إنه كان طويلًا جدًا.

هذه استجابة قياسية تم إنشاؤها منذ أوائل Grok يومين عندما كانت متاحة فقط على Twitter.

خاتمة

بشكل عام ، تعتبر Grok 4 ترقية مهمة على Grok 3 ، لكن Xai قدمت بعض التسوية بوضوح ، مما يميز التفكير في الإبداع والقضاء على الميزات الوظيفية في مقابل الكفاءة المعممة.

لحسن الحظ ، لا تزال Grok 3 متوفرة مع أدوات الوكيل المتخصصة ، لأولئك الذين يحتاجون إليها.

يركز النموذج الجديد على مهام التفكير وسيكون أكثر جاذبية للمستخدمين الذين يطرحون أسئلة فنية ، وخاصة مشاكل الرياضيات والفيزياء التي تتماشى مع نقاط قوته القياسية. قد يفتح المستخدمون المحترفين الذين يستثمرون وقتًا في تعلم المراوغات النموذجية إمكاناته الكاملة للعمل التحليلي المعقد.

وضعت Voice Interaction أيضًا معيارًا جديدًا لـ AI للمحادثة-وهو أمر رائع لأولئك الذين سيستخدمون هذه الميزة بشدة (ثق بنا ، The Bedtime Storyteller for Kids هو منفرد الحياة).

سيجد الكتاب المبدعون خيارات أفضل في مكان آخر ، مع بقاء كلود متفوقة على المهام السردية. أيضًا ، يجب أن يقترب المبرمجون المبتدئون بحذر ، لأن براعة الترميز النظرية للنموذج لم تترجم إلى نتائج عملية في الاختبار.

إذن ، خلاصة القول؟ إذا كنت لا تمانع لسبب ما في وضع إلون موسك إبهامه على المقياس ، فإن Grok 4 سوف يمنحك حل المشكلات عالي المستوى وميزات صوت تثير الإعجاب حقًا. ولكن بسعر 30 دولارًا في الشهر ، إذا كان لديك احتياجات أخرى تتجاوز الصوت أو التفكير ، فإن البدائل الأقل تكلفة توفر قيمة أفضل.

شاركها.
Exit mobile version