أستاذ كلية إدارة الأعمال في جامعة نيويورك سريكانث جاجاباثولا مؤلف مشارك التفكير المالي المتقدم على نطاق واسع: تقييم شامل لنماذج اللغة الكبيرة على مستوى CFA III -من السمعة أول ورقة تُظهر أن نماذج الذكاء الاصطناعى للأغراض العامة يمكنها اجتياز أصعب امتحان في صناعة التمويل.

Srikanth ، هل يمكنك التحدث معي خلال الفرضية التي كنت تبحث عن اختبارها؟

أظهرت نماذج اللغة الكبيرة قدرات هائلة عبر مجموعة واسعة من المجالات ، وقد تحسنت قدراتها بالقفزات والحدود على مدار السنوات القليلة الماضية. لذلك بدأنا بالتفكير في قدرات LLMs في المجالات المتخصصة ذات المخاطر العالية. يمتلك التمويل ، مثله مثل أي مجال متخصص ، الكثير من المفاهيم الخاصة بالموضوع – مصطلحات خاصة خاصة بالمجال.

لذلك عندما نأخذ نموذج لغة كبير يتم تدريبه عبر مجموعة واسعة من مصادر البيانات ، فإن السؤال هو ما إذا كان بإمكاننا القول أن هذه النماذج لديها إمكانات للعمل بشكل جيد خارج الصندوق. كان هذا هو السؤال الرئيسي الذي أردنا الإجابة عليه. لقد كانت فرصة قيمة لإنشاء معيار ، وتقييم LLMs ، وفهم إلى أي مدى وصلت قدراتها.

يحتاج المعيار الجيد إلى وجود خصائص أو صفات معينة. يجب أن تكون ممثلة لمجموعة المهارات المطلوبة في هذا المجال بالذات. يجب أن تعتبر على نطاق واسع المعيار الصحيح من قبل الناس في المجتمع. لذلك إذا أظهرت أداءً جيدًا على المعيار ، فيجب أن يعتقد الناس أنه يترجم فعليًا إلى أداء العالم الحقيقي. للتقدم المالي ، CFA هو المعيار الذهبي.

واختصار ، ماذا وجدت؟

اكتشافنا الرئيسي هو أن الحدود الحديثة LLMs قادرة على مسح درجة النجاح في اختبار وهمية المستوى III CFA. وهذه هي المرة الأولى ، على حد علمنا ، يتم الإبلاغ عنها. أظهرت الأبحاث السابقة – التي أجريت قبل عامين – أن LLMs Frontier في تلك المرحلة الزمنية كانت قادرة على مسح مستويات CFA I و II ، لكنها فشل المستوى الثالث. ما نجده الآن هو أن قدراتهم قد زادت بشكل كبير.

هل كانت مسألة التغذية في الأسئلة الخام والحصول على النماذج لإنتاج إجابات ، أم أنها طريقة أكثر دقة من ذلك؟

نعم ، هناك فارق بسيط لهذا. هناك نوعان من الأسئلة المطروحة في هذا الاختبار ، وأسئلة الاختيار من متعدد وأسئلة المقالات. للحصول على خيارات متعددة ، نتغذى على أسئلة الاختبار وهمية واطلب من LLM اختيار أحد الخيارات الأربعة. تقييم هذا واضح بشكل معقول لأن لدينا أيضًا مفتاح الإجابة.

ولكن هناك أيضًا أسئلة مقال ، حيث توجد مقالة وبعض الأسئلة بناءً على المعلومات المقدمة. يجب تقييم هذه الإجابة بشكل مناسب. إنها ليست مسألة بسيطة للتحقق مما إذا كانت تتطابق مع الإجابة الدقيقة للكلمة في مفتاح الإجابة أم لا.

هذا تحد موجود في دراسات القياس الأخرى ، وأحد الأساليب التي ظهرت هو ما يعرف باسم LLM كقاضي. ما نفعله عادة هو أخذ نموذج قوي للغاية ونمنحه المقال المنتجة ، إلى جانب الإجابة الحقيقية وجميع السياق ذي الصلة. ثم نطلب من النموذج تصنيف المقال كما لو كان الصف.

هذا ما يفعله معظم الناس ، لكننا لم نتوقف عند هذا الحد. قد يكون هناك بعض التحيزات المتأصلة في الدرجات ، لذلك مررنا أيضًا بعملية توظيف طلاب الصف الثالث من CFA ، وطلبنا منهم أيضًا تصنيف جميع الإجابات. ثم قمنا بحساب الصف الإجمالي باستخدام كلا النهجين.

هل عادةً ما تكون LLMs أعلى أو أقل من البشر؟

لقد وجدنا أنه على نفس الأسئلة ، كان طالب الصف LLM أكثر صرامة بشكل عام. في المتوسط ​​، كانوا يعينون نقاط أقل من البشر.

هذا يتعارض مع ما شهده الكثير منا عند استخدام LLMS ، وهو أنه في كثير من الأحيان يبدو أنه يملأ المستخدم ويعطي ملاحظات إيجابية بغض النظر عن السبب. هل كانت نتيجة مفاجئة بالنسبة لك؟

كان مفاجئا. ما ذكرته لوحظ في بعض الأدبيات الموجودة أيضًا. لكن هذا ليس ما وجدناه.

الفوارق الأخرى هنا هي أنه بالنسبة إلى LLMS ، فإن الطريقة التي تطالب بها بشكل كبير تحدد جودة الإجابة التي تحصل عليها. لذلك نحن نقوم بتقييم الأنواع المختلفة من تقنيات المطالبة ، ونجد أن تقنية المطالبة بفارق سلسلة تؤدي الأفضل.

هل يمكن أن تشرح من حيث الشروط العادي لمطالبة سلسلة الفكرة؟

بالتأكيد. في المطالبة المنتظمة ، عادةً ما تطرح السؤال ، وتعطي أي سياق يحتاج إلى LLM واطلب إجابة. في مطالبة سلسلة الأفكار ، تطلب من LLM شرح المنطق وإظهار تفكيره قبل أن يوفر إجابة.

تم العثور على في الأدب أن مطالبة LLM بإظهار عملها وينتهي المنطق إلى تحسين الأداء وإعطاء إجابة أفضل.

بالنظر إلى النتائج ، بدا أن جميع النماذج التي اختبرتها تعمل بشكل جيد إلى حد ما. هل هذا يشير إلى درجة ما من الالتهاب؟

واحدة من النتائج الرئيسية التي لدينا هي أنه ، على أسئلة الاختيار من متعدد ، نرى درجة أكبر من التجميع بين النماذج. ولكن في أسئلة المقال ، هناك الكثير من الانفصال عبر النماذج ، مع أداء نماذج التفكير أفضل بكثير من الإصدارات غير المعدنية ، ونماذج الحدود أفضل بكثير من النماذج المفتوحة المصدر.

تدعم أدلةنا الادعاء بأن الأداء يبدو أنه يتقارب مع بعض المهام ، ولكن بالنسبة للمهام الصعبة ، لا يزال يبدو أن النماذج الأكبر تميز نفسها عن الحشد.

هل هناك طريقة لمعرفة ، أو على الأقل اكتشاف ، ما إذا كان قد تم تدريب LLM معين على هذه المجموعة المحددة من الأسئلة الوهمية؟

سؤال عظيم. أحد الأسباب التي اخترنا اختبارات CFA هي تجنب ما يسمى بتسرب البيانات ، وهذا يعني عندما يتم ملاحظة مهمة الاختبار بالفعل من قبل النموذج في عملية التدريب. لا يمكن للمرء بالتأكيد استبعادها ، من أي وقت مضى. ولكن نظرًا لأن الكثير من هذه الأسئلة تميل إلى أن تكون وراء PayWall ، فقد لا تكون LLMS قد لم ترها أثناء عملية التدريب.

الكثير من أبحاثك السابقة على سلاسل البيع بالتجزئة والتوريد ، وأنت قادم إلى التمويل كخارجية. هل تعتقد أن أدوار الخدمات المالية معرضة بشكل خاص للأتمتة الذكية؟

أرى هذه النماذج تكمل المواهب القائمة. أجرينا دراسة أصغر بكثير حول كيفية تفاعل LLM مع البشر في تقديم المشورة المالية. أريد أن أكون حذراً في تعميم الكثير منه ، ولكن عادة ما وجدناه هو أن LLMs كانت جيدة جدًا في إعطاء إجابات دقيقة ، لكنهم كانوا يفقدون أيضًا الكثير من السياق الذي لم يتم ذكره بشكل صريح لهم ، وكانت هناك بعض المشكلات فيما يتعلق بالثقة من المستخدم النهائي وكيف يدركون هذه LLMs.

لذلك لأنهم يقفون الآن ، ليس من الواضح. ليس لدينا أدلة في هذه المرحلة لنقول بشكل قاطع ما يمكنهم أتمتة ، ولكن هناك الكثير من الأدلة التي تشير إلى أنها يمكن أن تكمل القوى العاملة الحالية بشكل كبير.

أعتقد أن القلق الكبير ليس مجرد جودة الإخراج. هذا هو أن توليد نصيحة من قبل LLM يعفي شركة المساءلة البشرية.

لذلك ، أنا المدير الأكاديمي لبرنامج المرحلة الجامعية هنا في جامعة نيويورك ستيرن ، وفي هذا الدور أفكر في نوع التأثير الذي سيحدثه الذكاء الاصطناعي على التوظيف في المستقبل ، وخاصة وظائف المبتدئين ، لأن هذا ما نقوم بإعداده للطلاب الجامعيين لدينا. ما يمكنني قوله هو أنه لا يزال هناك درجة عالية من عدم اليقين فيما يتعلق بالاتجاه الذي ستتخذه الأشياء.

هل طلابك متفائلون أو متشائمون حول مكان أخذ الذكاء الاصطناعي المجتمع؟

إذا كان بإمكاني التعميم ، فإن ما أراه هو مزيج قليلاً. هناك بالتأكيد درجة من التفاؤل لأن استخدام هذه التقنيات يمكن أن يكون تمكينًا للغاية. ويشعرون فجأة أنهم يستطيعون فعل أشياء ربما لم يتمكنوا من ذلك من قبل. الترميز فيبي ، على سبيل المثال ، هذا شيء يتم تمكينه حقًا. وأكثر من التشاؤم ، أود أن أقول أن هناك القليل من القلق ، وذلك أساسا من عدم اليقين حول كيف يمكن أن تبدو الأمور المضي قدمًا.

هل تسمح لطلابك باستخدام chatgpt لكتابة مهامهم؟

كجامعة ، في هذه المرحلة ، لا توجد سياسة لمنعهم من استخدام أي أدوات منظمة العفو الدولية. الكليات الفردية تأخذ أساليب مختلفة.

مزيد من القراءة:
– أخبار سارة: من المحتمل أن تفشل Chatgpt في اختبار CFA (FTAV ، مارس 2023)

شاركها.