فتح Digest محرر مجانًا
تختار رولا خالاف ، محررة FT ، قصصها المفضلة في هذه النشرة الإخبارية الأسبوعية.
كشفت Google DeepMind عن نماذج ذكاء اصطناعي للروح التي أشادت بها كمعلم في السعي الطويل لجعل الآلات المتعددة الأغراض أكثر فائدة وعملية في العالم اليومي.
تم تصميم نماذج الروبوتات الجديدة للشركة ، والتي تسمى Gemini Robotics و Gemini Robotics-ER ، لمساعدة الروبوتات على التكيف مع البيئات المعقدة من خلال الاستفادة من إمكانات التفكير في نماذج اللغة الكبيرة لإكمال المهام الحقيقية المعقدة.
وفقًا لـ Google DeepMind ، تمكن روبوت تم تدريبه باستخدام طرزه الجديدة من طي ثعلب اوريغامي ، وتنظيم مكتب وفقًا للتعليمات اللفظية ، وأسلاك سماعات الرأس لفّة كرة سلة مصغرة عبر طوق. تتعاون الشركة أيضًا مع AppTronik بدء تشغيل AppTronik لبناء روبوتات بشرية باستخدام هذه التكنولوجيا.
يأتي التطوير في الوقت الذي تتسابق فيه مجموعات التكنولوجيا ، بما في ذلك Tesla و Openai ، وتتسابق الشركات الناشئة لبناء “الدماغ” الذكاء الاصطناعي التي يمكنها تشغيل الروبوتات بشكل مستقل في التحركات التي يمكن أن تحول مجموعة من الصناعات ، من التصنيع إلى الرعاية الصحية.
قال جنسن هوانغ ، الرئيس التنفيذي لشركة Chipmaker Nvidia ، هذا العام إن استخدام الذكاء الاصطناعي التوليدي لنشر الروبوتات على نطاق واسع يمثل فرصة بمليارات الدولارات “تمهد الطريق إلى” أكبر صناعة تقنية شهدها العالم على الإطلاق “.
كان التقدم في الروبوتات المتقدمة بطيئًا بشكل مشهد في العقود الأخيرة ، حيث يقوم العلماء بترميز كل خطوة يدويًا. بفضل تقنيات الذكاء الاصطناعي الجديدة ، تمكن العلماء من تدريب الروبوتات على التكيف بشكل أفضل مع محيطهم وتعلم مهارات جديدة بشكل أسرع.
وقال Kanishka Rao ، مهندس البرمجيات الرئيسي في Google DeepMind: “إن Gemini Robotics هو ضعف ما هو أفضل نماذج سابقة لدينا ، حيث حقق حقًا قفزة كبيرة نحو الروبوتات للأغراض العامة”.
لإنشاء نموذج Gemini Robotics ، استخدمت Google نموذج اللغة Gemini 2.0 وتدريبه على وجه التحديد للتحكم في الروبوتات. أعطى هذا الروبوتات دفعة في الأداء وسمح لهم بالقيام بثلاثة أشياء: التكيف مع المواقف الجديدة المختلفة ، والاستجابة بسرعة للتعليمات اللفظية أو التغييرات في بيئتها ، وتكون جميلة بما يكفي لمعالجة الأشياء.
ستكون هذه القدرة على التكيف بمثابة نعمة لأولئك الذين يقومون بتطوير التكنولوجيا ، حيث أن عقبة كبيرة على الروبوتات هي أنها تؤدي أداءً جيدًا في المختبرات ، ولكنها سيئة في الإعدادات الأقل تحكمًا بإحكام.
لتطوير Robotics Gemini ، استفادت Google DeepMind من الفهم الواسع للعالم الذي تظهره نماذج اللغة الكبيرة التي يتم تدريبها على البيانات من الإنترنت. على سبيل المثال ، تمكن الروبوت من التفكير في أنه يجب أن يمسك فنجان القهوة باستخدام إصبعين.
وقال كين جولدبرغ ، أستاذ الروبوتات بجامعة كاليفورنيا ، بيركلي ، الذي لم يكن جزءًا من البحث: “هذا بالتأكيد تطور مثير في مجال الروبوتات الذي يبدو أنه يعتمد على نقاط قوة Google في البيانات والحساب على نطاق واسع للغاية”.
وأضاف أن أحد الجوانب الأكثر جودة لنماذج الروبوتات الجديدة هذه هو أنها تعمل بسلاسة في السحابة ، ويفترض أنها يمكن أن تستفيد من وصول Google إلى نماذج لغة كبيرة جدًا تتطلب قوة كمبيوتر كبيرة.
هذا جهد شامل مثير للإعجاب مع نتائج مقنعة تتراوح من التفكير المكاني إلى التلاعب البرلمان. إنه دليل مقنع على أن قاعدة أقوى [vision-language] وقال روس تيدريك ، الأستاذ في معهد ماساتشوستس للتكنولوجيا ونائب رئيس أبحاث الروبوتات في معهد تويوتا لأبحاث تويوتا ، إن النماذج يمكن أن تؤدي إلى أداء أفضل للتلاعب “.
قال جولدبرغ: “الجوزاء خطوة مهمة”. ومع ذلك ، “لا يزال هناك الكثير مما يجب القيام به قبل أن تكون الروبوتات المتعددة للأغراض جاهزة للتبني”.