ابق على اطلاع بالتحديثات المجانية
فقط قم بالتسجيل في الذكاء الاصطناعي ملخص myFT – يتم تسليمه مباشرة إلى صندوق الوارد الخاص بك.
أولاً، نتعلم أن نماذج الذكاء الاصطناعي التوليدية يمكن أن “تهلوس”، وهي طريقة أنيقة للقول إن نماذج اللغة الكبيرة تختلق الأشياء. وكما أبلغني ChatGPT نفسه (في هذه الحالة بشكل موثوق)، يمكن لـ LLMs توليد أحداث تاريخية مزيفة، وأشخاص غير موجودين، ونظريات علمية زائفة وكتب ومقالات خيالية. الآن، يخبرنا الباحثون أن بعض LLMs قد تنهار تحت وطأة عيوبها الخاصة. هل هذه حقًا التكنولوجيا العجيبة في عصرنا والتي أنفقت عليها مئات المليارات من الدولارات؟
في ورقة بحثية نُشرت في مجلة Nature الأسبوع الماضي، استكشف فريق من الباحثين مخاطر “تلوث البيانات” في أنظمة تدريب الذكاء الاصطناعي ومخاطر انهيار النموذج. بعد أن استوعبت بالفعل معظم تريليونات الكلمات التي أنشأها البشر على الإنترنت، أصبحت أحدث نماذج الذكاء الاصطناعي تعتمد بشكل متزايد على البيانات الاصطناعية التي أنشأتها نماذج الذكاء الاصطناعي نفسها. ومع ذلك، يمكن أن تعرض هذه البيانات التي تم إنشاؤها بواسطة الروبوتات سلامة مجموعات التدريب للخطر بسبب فقدان التباين وتكرار الأخطاء. وخلص المؤلفون إلى أن “الاستخدام العشوائي للمحتوى الذي تم إنشاؤه بواسطة النموذج في التدريب يسبب عيوبًا لا رجعة فيها في النماذج الناتجة”.
يبدو أن هذه النماذج، مثل الثعبان الأسطوري القديم أوروبوروس، تأكل ذيولها.
يقول لي إيليا شوميلوف، الذي كان المؤلف الرئيسي للورقة البحثية أثناء عمله كباحث في جامعة أكسفورد، إن النتيجة الرئيسية للبحث هي أن معدل التطور في الذكاء الاصطناعي التوليدي من المرجح أن يتباطأ مع ندرة البيانات عالية الجودة. ويقول: “الفرضية الرئيسية للورقة البحثية هي أن الأنظمة التي نبنيها حاليًا سوف تتدهور”.
وتشير تقديرات شركة الأبحاث Epoch AI إلى وجود 300 تريليون رمز (وحدات بيانات صغيرة) من النصوص العامة التي ينتجها البشر، وهي جيدة بما يكفي لاستخدامها لأغراض التدريب. ووفقا لتوقعاتها، قد ينضب هذا المخزون من البيانات بحلول عام 2028. وعندئذ لن يكون هناك ما يكفي من البيانات الجديدة عالية الجودة التي ينتجها البشر لتغذية القادوس، وقد يصبح الاعتماد المفرط على البيانات الاصطناعية مشكلة، كما تشير ورقة نيتشر.
ولكن هذا لا يعني أن النماذج الحالية التي يتم تدريبها في الغالب على البيانات التي ينتجها البشر سوف تصبح عديمة الفائدة. فعلى الرغم من عاداتها الهلوسية، لا يزال من الممكن تطبيقها على عدد لا يحصى من الاستخدامات. والواقع أن الباحثين يقولون إن ميزة المبادرة قد تكون لصالح برامج الماجستير في القانون المبكرة التي يتم تدريبها على بيانات غير ملوثة والتي أصبحت الآن غير متاحة لنماذج الجيل التالي. ويشير المنطق إلى أن هذا من شأنه أيضاً أن يزيد من قيمة البيانات الجديدة الخاصة التي ينتجها البشر ــ وينبغي للناشرين أن يأخذوا في الحسبان هذا.
لقد نوقشت المخاطر النظرية المترتبة على انهيار النموذج لسنوات، وما زال الباحثون يزعمون أن الاستخدام التمييزي للبيانات الاصطناعية قد يكون لا يقدر بثمن. ومع ذلك، فمن الواضح أن باحثي الذكاء الاصطناعي سيضطرون إلى إنفاق المزيد من الوقت والمال على تنظيف بياناتهم. إحدى الشركات التي تستكشف أفضل السبل للقيام بذلك هي Hugging Face، منصة التعلم الآلي التعاوني التي يستخدمها مجتمع البحث.
لقد عملت Hugging Face على إنشاء مجموعات تدريب عالية التنظيم تتضمن بيانات اصطناعية. كما ركزت على نماذج لغوية صغيرة في مجالات محددة، مثل الطب والعلوم، والتي يسهل التحكم فيها. يقول أنطون لوزكوف، مهندس التعلم الآلي في Hugging Face: “يكره معظم الباحثين تنظيف البيانات. لكن عليك أن تأكل خضرواتك. في مرحلة ما، يجب على الجميع تخصيص وقتهم لذلك”.
ورغم أن القيود التي تفرضها نماذج الذكاء الاصطناعي التوليدي أصبحت أكثر وضوحا، فمن غير المرجح أن تؤدي إلى عرقلة ثورة الذكاء الاصطناعي. والواقع أن التركيز قد يتجدد الآن على مجالات أبحاث الذكاء الاصطناعي المجاورة، التي أهملت نسبيا في الآونة الأخيرة، ولكنها قد تؤدي إلى تقدم جديد. ويشعر بعض الباحثين في مجال الذكاء الاصطناعي التوليدي بالفضول بشكل خاص إزاء التقدم المحرز في مجال الذكاء الاصطناعي المتجسد، كما هو الحال في الروبوتات والمركبات ذاتية القيادة.
عندما أجريت مقابلة مع عالمة الإدراك أليسون جوبنيك في وقت سابق من هذا العام، أشارت إلى أن علماء الروبوتات هم الذين كانوا في الواقع يبنون الذكاء الاصطناعي الأساسي: لم تكن أنظمتهم أسيرة الإنترنت ولكنها كانت تتوغل في العالم الحقيقي، وتستخرج المعلومات من تفاعلاتها وتكيف استجاباتها نتيجة لذلك.
“هذا هو الطريق الذي يتعين عليك اتباعه إذا كنت تحاول حقًا تصميم شيء ذكي حقًا”، اقترحت.
وبعد كل شيء، وكما أشار جوبنيك، كانت هذه هي الطريقة التي نشأ بها الذكاء البيولوجي في الأصل من المستنقع البدائي. وربما تبهرنا أحدث نماذج الذكاء الاصطناعي التوليدي بقدراتها. ولكن لا يزال أمامها الكثير لتتعلمه من تطور الديدان والإسفنج الأكثر بدائية قبل أكثر من نصف مليار عام.
جون ثورنهيل@ft.com