تكنولوجيا وإتصالات

أبل تفاجئ العالم: ذكاء اصطناعي جديد يفهم الفيديو الطويل ويتفوق على عمالقة التكنولوجيا

كتب في : الأحد 24 اغسطس 2025 - 9:32 صباحاً بقلم : المصرية للأخبار

 

أعلنت شركة أبل عن تطوير نموذج لغوي ضخم قادر على فهم وتحليل مقاطع الفيديو الطويلة بكفاءة عالية، متفوقًا على نماذج أكبر حجماً وأكثر تكلفة، النموذج الجديد، الذي أطلق عليه اسم SlowFast-LLaVA 1.5، يمثل ثورة في كيفية تفاعل الذكاء الاصطناعي مع المحتوى المرئي.

ما القصة؟

عادةً، يقوم الذكاء الاصطناعي عند تحليل الفيديو بتقسيمه إلى إطارات متتالية، ثم معالجة كل إطار على حدة. هذه الطريقة بطيئة جدًا وتستهلك كمًا هائلًا من المعلومات المكررة، مما يجعل النماذج تتخطى "الذاكرة المؤقتة" الخاصة بها بسرعة. وهنا يضطر النظام إلى نسيان أجزاء سابقة من الفيديو ليواصل المعالجة، وهو ما يُضعف الفهم الكلي للمحتوى.

لكن أبل وجدت الحل.

فقد اعتمدت على تقنية "التدفق البطيء والسريع"؛ حيث يقوم جزء من النموذج بتحليل عدد قليل من الإطارات بدقة عالية لفهم المشهد، بينما يتابع جزء آخر عددًا أكبر من الإطارات بدقة أقل لرصد حركة الأشياء مع الزمن.

إنجاز يفوق التوقعات

النتيجة كانت مذهلة: النموذج الجديد تفوق على نماذج أكبر منه حجمًا في اختبارات عالمية مثل LongVideoBench و MLVU.

حتى النسخة الأصغر (1 مليار بارامتر) حققت نتائج تتفوق على نماذج أضخم بكثير.

والأهم أنه لم يقتصر على الفيديو فقط، بل أثبت كفاءته أيضًا في فهم الصور، الرياضيات، النصوص المعقدة، والتعرف الضوئي على الحروف (OCR).

تحديات ما زالت قائمة

رغم هذا النجاح، ما زال للنموذج بعض القيود؛ إذ يستطيع معالجة 128 إطارًا كحد أقصى فقط من أي فيديو مهما كان طوله. وهذا يعني أنه قد يغفل بعض اللقطات المهمة أو يُخطئ في تقدير سرعة العرض. ومع ذلك، وصف الباحثون ابتكارهم بأنه "الأفضل حتى الآن" خصوصًا أنه تم تدريبه بالكامل على بيانات عامة ومتاحة للجميع.

متاح للجميع

المفاجأة أن أبل لم تحتكر هذا الإنجاز؛ فقد طرحت نموذج SF-LLaVA 1.5 كمشروع مفتوح المصدر عبر منصات GitHub و Hugging Face، مع نشر البحث العلمي كاملًا على موقع arXiv، ليكون متاحًا للباحثين والمطورين حول العالم.

بداية الصفحة