هل كان من الممكن أن يكون GPT-4 قد رصدت Airbnb في عام 2008-أو Figma في عام 2012-قبل الايجابيات؟

تشير ورقة جديدة من باحثين في جامعة أكسفورد وفيلا أبحاث إلى أن نماذج اللغة الكبيرة أفضل بالفعل في اختيار الفائزين من معظم المستثمرين في المراحل الأولى. في حقل سيئ السمعة للمطابقة والمطابقة للأنماط والدفء ، فإن احتمال ظهور المؤسسين الواعدين في وقت مبكر-دون معرفة أسمائهم-يمكن أن يكون تغييرًا في اللعبة.

إذا تمكنت نماذج مثل GPT-4O من تحسين معدلات الوصول بشكل متواضع ، فيمكنها أن تصبح أدوات ضرورية في كومة تعليم كل شركة لكل شركة ، وربما تجعل بدء التشغيل تستثمر أكثر قليلاً من الجدارة.

ورقة البحث ، “VcBench: Benchmarking LLMs في رأس المال الاستثماري ،” يقدم VCBench ، أول معيار مفتوح مصمم لاختبار ما إذا كان يمكن لمنظمة العفو الدولية التنبؤ بنجاح بدء التشغيل قبل حدوثها. قام الفريق ببناء مجموعة بيانات تضم 9000 ملف تعريف مؤسس مجهول ، كل منها مقترن ببيانات شركة المرحلة المبكرة. تم تصنيف حوالي 810 ملف تعريف على أنه “ناجح” – محدد على أنه تحقيق علامة فارقة نمو رئيسية مثل الخروج أو الاكتتاب العام – مما يؤدي إلى تقديم النماذج لإشارة قليلة ولكن ذات مغزى للتدريب عليها.

من الأهمية بمكان ، قام الباحثون بتنظيف مجموعة بيانات الأسماء والمعرفات المباشرة حتى لا تتمكن النماذج من حفظ التوافه Crunchbase. حتى أنهم أجروا اختبارات عدوانية لضمان عدم وجود LLMS من خلال إعادة تحديد المؤسسين من البيانات العامة ، مما يقلل من مخاطر إعادة الهوية بنسبة 92 في المائة مع الحفاظ على الميزات التنبؤية.

عند إجراء الاختبار ، كانت النماذج أفضل من معظم المعايير البشرية. تلاحظ الورقة أن “مؤشر السوق”-الأداء الأساسي لجميع رهانات VC في المرحلة المبكرة-يتصدرون بدقة 1.9 ٪ فقط ، أو فائز واحد في 50 محاولة. تعمل Y Combinator بشكل أفضل عند 3.2 ٪ ، أي ما يقرب من 1.7 أضعاف السوق ، وترتفع شركات VC Tier-1 حوالي 5.6 ٪ ، مما يضاعف ذلك تقريبًا مرة أخرى.

نماذج اللغة الكبيرة ، ومع ذلك ، فجرت هذا الأساس.

على سبيل المثال ، Deepseek-V3 سلم أكثر من ستة أضعاف دقة مؤشر السوق ، بينما GPT-4O تصدرت لوحة المتصدرين بأعلى درجة F0.5 ، وتوازن الدقة والاستدعاء. كلود 3.5 السوناتة و Gemini 1.5 Pro كما تغلب على السوق بسهولة ، وهبط في نفس الأداء مثل شركات مشروع النخبة.

وبعبارة أخرى ، قامت كل اختبار LLM الذي تم اختباره تقريبًا بعمل أفضل في تحديد الفائزين المحتملين من المتوسط ​​VC-والعديد من النماذج التي تتوافق مع أو تجاوزت القوة التنبؤية لـ Y combinator والأموال ذات المستوى الأعلى.

أصدر الباحثون VCBench كمورد عام في vcbench.com، دعوة المجتمع لتشغيل نماذجهم الخاصة ونشر النتائج. إذا كانت المتصدرين تملأ LLMS يتفوق على السوق ، فيمكن أن يعيد تشكيل الاستثمار في المرحلة المبكرة. قد لا يكون العالم الذي يتم فيه اكتشاف المؤسسين من قبل عملاء الذكاء الاصطناعى صيدًا على LinkedIn بدلاً من الشركاء الباردين.

شاركها.
Exit mobile version