في عمود اليوم، أدرس فكرة مبتكرة إلى حد ما والتي تقلب بذكاء التصميم التقليدي للذكاء الاصطناعي التوليدي ونماذج اللغات الكبيرة (LLMs) رأسًا على عقب. ببساطة، ضع في اعتبارك الفكرة المتهورة القائلة بأنه بدلاً من تلقي الذكاء الاصطناعي التوليدي نصًا خالصًا، تم التقاط النص أولاً كصور، ثم تم إدخال الصور في الذكاء الاصطناعي.
يقول ما؟
بالنسبة لأي شخص على دراية بالأسس التقنية لماجستير القانون، يبدو هذا غريبًا تمامًا وغير بديهي. ربما تصرخ بصوت عالٍ بالفعل بأن هذا لا معنى له. هذا هو السبب. تم تصميم LLM للتعامل مع اللغات الطبيعية مثل اللغة الإنجليزية، وبالتالي يستخدم النص بكثرة. النص هو الطريقة التي نقوم بها عادةً بإدخال المطالبات وإدخال أسئلتنا في LLMs. إن اختيار استخدام صور النص، بدلاً من النص الفعلي، يجب أن يكون مفهومًا خاطئًا. تجديف.
تمسّك بقبعتك لأن بعض الباحثين الجادين جربوا هذا النهج، وهناك ما يكفي من المزايا التي تجعلنا نمنح رحلة الخيال قدرًا يسيرًا من الاهتمام الجدي المخلص.
دعونا نتحدث عن ذلك.
يعد هذا التحليل لاختراقات الذكاء الاصطناعي جزءًا من تغطية عمود فوربس المستمرة حول أحدث التطورات في مجال الذكاء الاصطناعي، بما في ذلك تحديد وشرح مختلف تعقيدات الذكاء الاصطناعي المؤثرة (انظر الرابط هنا).
الترميز أمر بالغ الأهمية
جوهر الأمر يستلزم جوانب الترميز في الذكاء الاصطناعي التوليدي و LLMs في العصر الحديث. لقد قمت بتغطية تفاصيل الترميز على الرابط هنا. سأقدم لمحة سريعة لتحصل على السرعة.
عند إدخال نص في الذكاء الاصطناعي، يتم تحويل النص إلى أرقام مختلفة. يتم بعد ذلك التعامل مع هذه الأرقام طوال بقية عملية معالجة المطالبة الخاصة بك. بمجرد وصول الذكاء الاصطناعي إلى إجابة، تكون الإجابة في الواقع بتنسيق رقمي وتحتاج إلى تحويلها مرة أخرى إلى نص، بحيث يمكن للمستخدم قراءتها. يشرع الذكاء الاصطناعي في تحويل الأرقام إلى نص ويعرض الاستجابة وفقًا لذلك.
تُعرف هذه العملية برمتها باسم الرمز المميز. يتم ترميز النص الذي تدخله في مجموعة من الأرقام. يشار إلى الأرقام بالرموز. تتدفق الأرقام، أو يمكننا أن نقول الرموز، عبر الذكاء الاصطناعي وتُستخدم لمعرفة الإجابات على أسئلتك. تكون الاستجابة مبدئيًا بتنسيق رقمي للرموز المميزة ويجب فك تشفيرها مرة أخرى إلى نص.
ولحسن الحظ، فإن المستخدم اليومي لا يكون على علم بعملية الترميز. ليست هناك حاجة لهم لمعرفة ذلك. يحظى هذا الموضوع باهتمام كبير لمطوري الذكاء الاصطناعي، ولكنه لا يحظى باهتمام كبير من عامة الناس. غالبًا ما يتم استخدام جميع أنواع الخداع الرقمي لمحاولة جعل عملية الترميز في أسرع وقت ممكن حتى لا يتم إيقاف الذكاء الاصطناعي أثناء التشفير وفك التشفير الذي يجب حدوثه.
الرموز هي مشكلة
لقد ذكرت أن عامة الناس عادة لا يعرفون عن جوانب الترميز في LLMs. هذا ليس هو الحال دائما. ربما يكون أي شخص دفع الذكاء الاصطناعي إلى أقصى حدوده على دراية غامضة بالرموز والترميز.
الصفقة هي هذا.
معظم برامج LLM المعاصرة، مثل OpenAI’s ChatGPT وGPT-5، وAnthropic Claude، وMeta Llama، وGoogle Gemini، وxAI Grok، وغيرها، محدودة إلى حد ما نظرًا لعدد الرموز المميزة التي يمكنهم التعامل معها بشكل مناسب في وقت واحد. عندما ظهر ChatGPT لأول مرة، كان عدد الرموز المميزة المسموح بها في محادثة واحدة محدودًا للغاية.
سوف تكتشف هذه الحقيقة بوقاحة من خلال عدم قدرة ChatGPT فجأة على تذكر الأجزاء السابقة من محادثتك. كان هذا بسبب اصطدام الذكاء الاصطناعي بالحائط بشأن عدد الرموز النشطة التي يمكن أن توجد في وقت واحد. تم التخلص من الرموز المميزة التي ظهرت في وقت سابق من محادثتك بشكل موجز.
إذا كنت تجري أي محادثات طويلة ومعقدة، فإن هذه القيود كانت مثيرة للغضب وأخرجت إلى حد كبير من المنافسة أي استخدام كبير للذكاء الاصطناعي التوليدي. لقد اقتصرت على المحادثات القصيرة نسبيًا. ظهرت نفس المشكلة عندما قمت باستيراد نص عبر طريقة مثل RAG (راجع مناقشتي على الرابط هنا). كان لا بد من ترميز النص واحتسابه مرة أخرى مقابل الحد الأقصى لعدد الرموز المميزة النشطة التي يمكن للذكاء الاصطناعي التعامل معها.
لقد كان الأمر مثيرًا للجنون بالنسبة لأولئك الذين يحلمون باستخدام الذكاء الاصطناعي التوليدي لحل المشكلات على نطاق أوسع.
الحدود أعلى ولكنها لا تزال موجودة
كانت الإصدارات الأولى من ChatGPT تحتوي على قيود تقل عن 10000 رمز يمكن أن تكون نشطة في أي وقت. إذا كنت تعتقد أن الرمز يمثل كلمة صغيرة، مثل “ال” أو “الكلب”، فهذا يعني أنك تصطدم بالحائط بمجرد أن تستهلك محادثتك ما يقرب من عشرة آلاف كلمة بسيطة. كان هذا أمرًا لا يطاق في ذلك الوقت لأي استخدام طويل أو معقد.
في الوقت الحاضر، يحتوي الإصدار التقليدي من GPT-5 على نافذة سياق رمزية تضم حوالي 400000 رمز مميز. ويعتبر ذلك السعة الإجمالية المرتبطة بكل من رموز الإدخال ورموز الإخراج كإجمالي مشترك. يمكن أن تختلف أحجام نافذة السياق. على سبيل المثال، لدى Claude حد يبلغ حوالي 200000 رمز مميز في بعض نماذجها، بينما يمتد البعض الآخر إلى حوالي 500000 رمز مميز.
تتمثل النظرة المستقبلية للمستقبل في أنه لن تكون هناك أي قيود مرتبطة بالعدد المسموح به من الرموز المميزة. هناك عمل متطور على ما يسمى بالذاكرة اللانهائية أو التي لا نهاية لها في الذكاء الاصطناعي والتي من شأنها أن تمكن إلى حد كبير أي عدد من الرموز. بالطبع، من الناحية العملية، لا يوجد سوى قدر محدود من ذاكرة الخادم التي يمكن أن توجد؛ وبالتالي، فهي ليست لا نهائية حقًا، ولكن المطالبة جذابة وعادلة إلى حد معقول. للحصول على شرحي لكيفية عمل الذاكرة اللانهائية للذكاء الاصطناعي، راجع الرابط هنا.
التعامل مع مشكلة الرمز المميز
نظرًا لأن الترميز يقع في جوهر كيفية تصميم معظم برامج LLM واستخدامها، فقد تم بذل الكثير من الجهد لمحاولة تحسين جوانب الترميز. الهدف هو جعل الرموز المميزة أصغر بطريقة ما، إن أمكن، مما يسمح بوجود المزيد من الرموز المميزة ضمن أي قيود ذاكرة لدى النظام.
لقد سعى مصممو الذكاء الاصطناعي مرارًا وتكرارًا إلى ضغط الرموز المميزة. القيام بذلك يمكن أن يكون مساعدة كبيرة. في حين أن نافذة الرمز المميز قد تقتصر عادةً على 200000 رمز مميز، إذا كان بإمكانك إسقاط كل رمز مميز إلى نصف حجمه المعتاد، فيمكنك مضاعفة الحد إلى 400000 رمز مميز. لطيف – جيد.
هناك مشكلة مزعجة مرتبطة بضغط الرموز المميزة. في كثير من الأحيان، نعم، يمكنك ضغطها لتقليص حجمها، لكن الدقة تقل عند القيام بذلك. هذا سيء. قد لا يكون الأمر سيئًا للغاية، بمعنى أنها لا تزال قابلة للتطبيق والاستخدام. كل هذا يتوقف على مقدار التضحية بالدقة.
من الناحية المثالية، قد ترغب في الحصول على أقصى قدر ممكن من الضغط والقيام بذلك مع الحفاظ على الدقة بنسبة 100%. إنه هدف سام. الاحتمالات هي أنك ستحتاج إلى موازنة مستويات الضغط مقابل الدقة الدقيقة. مثل معظم الأشياء في الحياة، لا توجد وجبة غداء مجانية أبدًا.
تخلص من جواربك
لنفترض أننا سمحنا لأنفسنا بالتفكير خارج الصندوق.
النهج المعتاد مع LLMs هو قبول النص الخالص، وترميز النص إلى رموز، والمضي قدمًا في طريقنا المرح. سنبدأ دائمًا عمليات تفكيرنا حول الترميز من خلال افتراض منطقي وطبيعي أن المدخلات من المستخدم ستكون نصًا خالصًا. يقومون بإدخال النص عبر لوحة المفاتيح الخاصة بهم، والنص هو ما يتم تحويله إلى رموز مميزة. إنه نهج مباشر.
فكر فيما يمكننا فعله أيضًا.
على ما يبدو خارج الحقل الأيسر، لنفترض أننا تعاملنا مع النص كصور.
أنت تعلم بالفعل أنه يمكنك التقاط صورة للنص ثم إجراء مسح ضوئي لها ثم الاحتفاظ بها كصورة أو تحويلها لاحقًا إلى نص. هذه العملية عبارة عن ممارسة قديمة تُعرف باسم OCR (التعرف البصري على الأحرف). لقد كان التعرف الضوئي على الحروف (OCR) موجودًا منذ الأيام الأولى لأجهزة الكمبيوتر.
تتكون عملية التعرف الضوئي على الحروف (OCR) المعتادة من تحويل الصور إلى نص ويشار إليها باسم تحويل الصورة إلى نص. في بعض الأحيان قد ترغب في القيام بالعكس، أي أن لديك نصًا وتريد تحويل النص إلى صور، وهي معالجة تحويل النص إلى صورة. هناك الكثير والكثير من التطبيقات البرمجية الموجودة التي ستفعل بكل سرور تحويل الصورة إلى نص وتحويل النص إلى صورة. إنها قبعة قديمة.
هذه هي الفكرة المجنونة حول LLMs والترميز.
لا يزال لدينا أشخاص يقومون بإدخال النص، لكننا نأخذ هذا النص ونحوله إلى صورة (أي تحويل النص إلى صورة). بعد ذلك، يتم استخدام صورة النص بواسطة برنامج تشفير الرمز المميز. وبالتالي، بدلاً من تشفير النص الخالص، يقوم برنامج التشفير بالتشفير بناءً على صور النص. عندما يكون الذكاء الاصطناعي جاهزًا لتقديم استجابة للمستخدم، سيتم تحويل الرموز المميزة من الرموز المميزة إلى نص، مع الاستفادة من تحويلات الصورة إلى النص.
بوم، أسقط الميكروفون.
فهم المفاجأة
ربما تتساءل، ما الفائدة التي يحققها هذا التلاعب بالصور؟
إذا كانت تحويلات الصور إلى الرموز المميزة يمكن أن تقودنا إلى رموز أصغر، فقد نتمكن من ضغط الرموز المميزة. وهذا بدوره يعني أنه من المحتمل أن يكون لدينا المزيد من الرموز ضمن حدود الذاكرة المحدودة. تذكر أن ضغط الرموز المميزة هو أمر في أذهاننا.
في دراسة نُشرت مؤخرًا بعنوان “DeepSeek-OCR: السياقات البصرية الضغط” بقلم هاوران وي، وياوفينج صن، ويوكون لي، arXiv، 21 أكتوبر 2025، أورد البحث هذه الادعاءات (مقتطفات):
- “يمكن لصورة واحدة تحتوي على نص مستند أن تمثل معلومات غنية باستخدام رموز مميزة أقل بكثير من النص الرقمي المكافئ، مما يشير إلى أن الضغط البصري من خلال رموز الرؤية يمكن أن يحقق نسب ضغط أعلى بكثير.”
- “تحفزنا هذه الرؤية على إعادة النظر في نماذج لغة الرؤية (VLMs) من منظور يركز على LLM، مع التركيز على كيف يمكن لأجهزة تشفير الرؤية أن تعزز كفاءة LLMs في معالجة المعلومات النصية بدلاً من VQA الأساسية، التي يتفوق فيها البشر.”
- “توفر مهام التعرف الضوئي على الحروف، باعتبارها وسيلة وسيطة تربط بين الرؤية واللغة، اختبارًا مثاليًا لنموذج ضغط نص الرؤية هذا، حيث أنها تنشئ خريطة طبيعية للضغط وإزالة الضغط بين التمثيلات المرئية والنصية مع تقديم مقاييس التقييم الكمي.”
- “تحقق طريقتنا دقة فك تشفير OCR بنسبة 96%+ عند ضغط النص 9-10x، و∼90% عند ضغط 10-12x، و∼60% عند ضغط 20x على معايير Fox التي تتميز بتخطيطات مستندات متنوعة (مع دقة فعلية أعلى عند مراعاة اختلافات التنسيق بين الإخراج والحقيقة الأساسية).”
كما هو مذكور أعلاه، يبدو أن العمل التجريبي يشير إلى إمكانية تحقيق نسبة ضغط أصغر بمقدار 10 مرات في بعض الأحيان بدقة تصل إلى 96%. إذا كان من الممكن القيام بذلك في جميع المجالات، فهذا يعني أنه في حين أن حد نافذة الرمز المميز اليوم قد يصل إلى 400000 رمز، يمكن رفع الحد إلى 4000000 رمز، وإن كان بمعدل دقة 96٪.
قد تكون الدقة البالغة 96% مقبولة أو غير محتملة، اعتمادًا على الغرض الذي يتم استخدام الذكاء الاصطناعي من أجله. لا يمكنك الحصول على وجبة غداء مجانية، على الأقل حتى الآن. سيكون معدل الضغط 20x أفضل، على الرغم من أن الدقة عند 60% قد تبدو غير جذابة على الإطلاق. ومع ذلك، قد تكون هناك ظروف يمكن فيها للمرء أن يقبل على مضض نسبة 60% مقابل الزيادة بمقدار 20 مرة.
نشر نجم الذكاء الاصطناعي الشهير أندريه كارباثي أفكاره الأولية عبر الإنترنت حول هذا النهج بشكل عام: “أنا أحب ورقة DeepSeek-OCR الجديدة. إنها نموذج جيد للتعرف الضوئي على الحروف (ربما أسوأ قليلاً من النقاط)، ونعم جمع البيانات وما إلى ذلك، ولكن على أي حال لا يهم. الجزء الأكثر إثارة للاهتمام بالنسبة لي (خاصة كرؤية كمبيوتر في القلب والذي يتنكر مؤقتًا كشخص يستخدم اللغة الطبيعية) هو ما إذا كانت وحدات البكسل هي مدخلات أفضل إلى LLMs من النص. سواء كان النص الرموز هي الإسراف ورهيب فقط، عند الإدخال. ربما يكون من المنطقي أكثر أن جميع المدخلات إلى ماجستير إدارة الأعمال يجب أن تكون صورًا فقط. (المصدر: تويتر/X، 20 أكتوبر 2025).
العصف الذهني مفيد
حاولت الدراسة البحثية أيضًا استخدام العديد من اللغات الطبيعية. هذه قيمة أخرى لاستخدام الصور بدلاً من النص الخالص. كما تعلم، هناك لغات طبيعية تستخدم الحروف والكلمات المصورة. قد تبدو هذه اللغات مناسبة بشكل خاص لطريقة الترميز القائمة على الصور.
هناك جانب آخر مثير للاهتمام وهو أن لدينا بالفعل أجهزة VLM، تتكون من الذكاء الاصطناعي الذي يتعامل مع الصور المرئية بدلاً من النص في حد ذاته (أي نماذج اللغة المرئية). لا يتعين علينا إعادة اختراع العجلة عندما يتعلق الأمر بفعل الشيء نفسه مع حاملي شهادة LLM. ما عليك سوى استعارة ما نجح مع VLMs وإعادة التكيف مع الاستخدام في LLMs. وهذا يستخدم الرأس بالكامل ويستفيد من إعادة الاستخدام عندما يكون ذلك ممكنًا.
الفكرة تستحق الاعتراف والتعمق الإضافي فيها. لا أقترح التجول والإعلان على الفور أن جميع حاملي شهادة LLM بحاجة إلى التحول إلى هذا النوع من الأساليب. هيئة المحلفين لا تزال خارج. نحن بحاجة إلى مزيد من البحث لنرى إلى أي مدى سيصل هذا الأمر، إلى جانب فهم الإيجابيات والسلبيات.
وفي الوقت نفسه، أعتقد أنه يمكننا على الأقل الإدلاء بهذا التصريح الجريء: “في بعض الأحيان، الصورة تساوي حقًا ألف كلمة”.
