من المحتمل أن يكون تطبيق تقنية الذكاء الاصطناعى في الرعاية الصحية أحد أهم المساهمات البشرية من النوع البشري في 21شارع قرن. كان العمل في هذه الساحة هائلاً ، حيث أصبح نماذج لغة كبيرة تنافسية الآن مع (وغالبًا ما يمكنهم التنافس) الأطباء البشريين في التفكير والاستعداد واتساع المعرفة. على سبيل المثال ، تم العثور على Med-Gemini لتكون دقيقة بنسبة 91 ٪ في الاختبارات القياسية المبكرة لامتحان الترخيص الطبي للولايات المتحدة (USMLE). تم العثور على الإصدارات المبكرة من chatgpt لتحقيق عتبة المرور لـ USMLE أيضًا.
ومع ذلك ، تطورت التكنولوجيا منذ ذلك الحين إلى أبعد من مجرد اجتياز أسئلة الاختبار التحريري البسيطة ؛ الآن ، يقوم عشاق الرعاية الصحية والتكنولوجيا بدمج أحدث نماذج التفكير في طرائق الممارسة السريرية ورعاية المرضى الفعلية. هذا يعني أن البحث والاختبار والقياس الموضوعي لأداء وسلامة وفعالية هذه النماذج يجب أن تكون ذات أهمية قصوى.
هذه هي المهمة الدقيقة لشبكة ARISE ، التي تم إنشاؤها في عام 2024 كوحدة تعاونية بين الأطباء وخبراء الأبحاث العميقة في المراكز الأكاديمية والطبية لتطوير واختبار وتقييم مخرجات وحلول الذكاء الاصطناعى بدقة في توصيل الرعاية الصحية. مهمة النشطاء واضحة نسبيا. يوضح الدكتور إيثان غوه ، المدير التنفيذي للتعاون ، أن التركيز الأساسي يتجاوز مجرد الأداء النموذجي وفعالية البناء التقنية ، وهو ما يستلزمه غالبية الأبحاث في هذه الساحة حاليًا. بدلاً من ذلك ، يصف بحماس على أنه يركز على “التفكير السريري والسلامة والقدرة على التوضيح” كوسيلة للإجابة على سؤال أساسي: “هل يمكن لمنظمة العفو الدولية أن تسبب بأمان مثل الطبيب في الرعاية الواقعية؟”
في هذا الجهد ، تمكنت ARISE من إنتاج العمل الرائد والتحرك في الصناعة.
ورقة قوية بشكل لا يصدق نشرتها المجموعة في وقت سابق من هذا العام في طب الطبيعة أبرز أن نماذج اللغة الكبيرة يمكن أن تساعد بشكل كبير التفكير الطبيعي في المقالات القصيرة السريرية المعقدة بالمقارنة مع الموارد التقليدية.
ورقة صاخبة أخرى من قبل المجموعة المنشورة في مجلة نيو إنجلاند للطب (NEJM) منظمة العفو الدولية في أغسطس من هذا العام ، قام بتقييم دور وفعالية عوامل نموذج اللغة الكبيرة باستخدام منصة تقييم خاصة ، MedagentBench. تستلزم المنصة 300 سيناريوهات/مهام خاصة بالمريض كتبها الأطباء البشريين وتم استخدامها لتقييم جميع النماذج الأخيرة تقريبًا في إطار عمل لتحديد نسب نجاحهم في إكمال المهام. وجدت الدراسة أن جميع LLMs تقريبًا أفضل بشكل ملحوظ في المهام القائمة على الاستعلام بدلاً من المهام القائمة على العمل ، حيث بلغت Claude 3.5 Sonnet أعلى معدل نجاح إجمالي قدره 69.67 ٪. وخلص الباحثون إلى أن هناك “حاجة إلى تحسين إمكانات LLM في التنقل في مهام صنع القرار المعقدة القائمة على الإجراءات.”
أنتجت ورقة ثالثة من المجموعة نتائج أكثر إثارة للذهول ؛ يصف دراسة قارنت LLMs والأطباء المعتمدين من مجلس الإدارة عبر ثلاثة سيناريوهات سريرية: فرز غرفة الطوارئ ، والتقييم الأولي من قبل الطبيب ، والقبول في المستشفى أو وحدة العناية المركزة. وجد الباحثون أنه في جميع السيناريوهات ، ظهرت LLM بشكل واضح وقادر على عرض قدرات التشخيص والتفكير الخارق.
من المؤكد أن ARISE ليس اللاعب الوحيد في الميدان الذي يعمل على متابعة الاختبارات القياسية وتقييم نماذج الذكاء الاصطناعي. أعلنت شركة Openai نفسها عن REALTHBENC في وقت سابق من هذا العام لاختبار أدواتها وفعاليتها النموذجية بشكل أفضل في السيناريوهات السريرية المعقدة. تم بناء HealthBench من قبل 262 طبيبًا في 60 دولة ويتضمن 5000 محادثات صحية ، “لكل منها نسبة نموذجية تم إنشاؤها من قبل الطبيب إلى الاستجابات النموذجية.” مثال آخر هو جهد Global Health LLM Global LLM ، والذي يستلزم “أكثر من 11000 شخص يدويًا وإنشاء LLM تمثل مجموعة واسعة من الأمراض الاستوائية والمعدية عبر الديموغرافية والموقع والموقع واللغة والمعززة السريرية والمستهلكين”. هدفها هو فهم أداء LLMS عبر “المهام التي تنطوي على تحولات التوزيع في أنواع الأمراض ، والمعرفة الطبية الخاصة بالمنطقة ، والتغيرات السياقية عبر الأعراض ، واللغة ، والموقع ، والتنوع اللغوي ، والسياقات الثقافية الموضعية”. على الرغم من سرعة نمو مجال تقييم النماذج ، فإن الجانب الأكثر أهمية في النشطاء هو أنه ليس له نية أن تكون تجاريًا بطبيعتها ؛ بدلا من ذلك ، فإنه يعتزم البقاء مستقلة وموضوعية.
يكرر الدكتور آدم رودمان ، وهو طبيب وأحد قادة الأبحاث الرئيسيين ، التزام المجموعة: بدفع تطوير النماذج بطريقة ذات معنى لهذا المجال من خلال تصميم معايير واختبارات مؤثرة للتأكد من ما ستفعله هذه الأنظمة بعمق في العالم الحقيقي.
لماذا كل هذا مهم جدا؟
لم يعد العالم في مكان يتم فيه استخدام LLMs و AI لتطبيقات AI ببساطة للامتحانات التحريرية أو المرجعية النظرية. بدلاً من ذلك ، وصل النظام إلى حد ما إلى كتلة حرجة إلى حد ما حيث يتم الآن متابعة النماذج وتوظيفها بنشاط في السيناريوهات السريرية الفعلية التي غالباً ما يتم توجيهها إلى قرارات رعاية المرضى الحرجة.
يصف مقال عبر HuggingFace قيمة تمارين التقييم وكذلك الغرض من مبادرة المتصدرين النموذجية الخاصة به: “عندما يتم استخدام النماذج في جوانب التحادثية الترفيهية ، فإن الأخطاء لها تداعيات ضئيلة ؛ هذا ليس هو الحال بالنسبة للاستخدامات في المجال الطبي ، حيث يمكن أن يكون للتفسيرات الخاطئة والإجابات عواقب وثيقة لرعاية المرضى ونتائجها.”
خذ على سبيل المثال عدد كبير من الشركات المحيطة التي أصبحت سريعة في العديد من الممارسات ؛ أفاد مقال نشر في مجلة الأكاديمية الأمريكية لأطباء الأسرة (AAFP) أن “النتائج الأولية من المنظمات المتكاملة من الذكاء الاصطناعي تظهر أن برامج SABE منظمة العفو الدولية تقلل بشكل كبير من عبء العمل على السجلات الصحية الإلكترونية ، ومع استمرار ارتفاع معدلات الإرهاق في الأطباء ، هناك اهتمام أكبر في أدوات الذكاء الاصطناعي.” تشير الدراسات بالمثل إلى أن أدوات دعم القرار السريري التي تعمل بالطاقة AI (CDS) يتم استخدامها بشكل متزايد ؛ في الواقع ، من المتوقع أن تصل حصة السوق إلى 1.79 مليار دولار بحلول عام 2030 ، بمعدل سنوي مركب بلغ 15.6 ٪.
في الواقع ، فإن الطلب على الذكاء الاصطناعى في البيئات السريرية الفعلية يتجاوز السماء ، خاصةً بالنظر إلى الإرهاق الطبيعي المتفشي الذي ينتشر ، وزيادة التكاليف وسط نقص في العمالة ، والسكان المتزايد مع الظروف الصحية المزمنة. الرعاية الصحية في نقطة الانهيار الحرجة ، والصناعة تتحول إلى التكنولوجيا باعتبارها نعمة الادخار الرئيسية. لذلك ، لم يعد من الممكن معاملة التحليلات الموضوعية والمعايير الشفافة والدراسات المحايدة على أنها اختيارية ، ولكن يجب أن يُنظر إليها بدلاً من ذلك على أنها حجر الزاوية في الابتكار.