
أصدر فريق على منصة تطوير الذكاء الاصطناعي Hugging Face ما يدعونه أنه أصغر نماذج الذكاء الاصطناعي التي يمكنها تحليل الصور ومقاطع الفيديو القصيرة والنصوص.
تم تصميم النماذج، SmolVLM-256M وSmolVLM-500M، للعمل بشكل جيد على "الأجهزة المقيدة" مثل الأجهزة المحمولة التي تحتوي على حوالي 1GB من الذاكرة العشوائية. يقول الفريق إنهم مثاليون أيضًا للمطورين الذين يحاولون معالجة كميات كبيرة من البيانات بتكلفة منخفضة جدًا.
SmolVLM-256M وSmolVLM-500M هما مجرد 256 مليون و 500 مليون معلمة بالحجم، على التوالي. (تتناسب العوامل تقريبًا مع قدرة النموذج على حل المشكلات، مثل أدائه في اختبارات الرياضيات.) يمكن لكلا النموذجين أداء مهام مثل وصف الصور أو مقاطع الفيديو والإجابة عن الأسئلة حول ملفات PDF والعناصر داخلها، بما في ذلك النصوص الممسوحة والرسوم البيانية.
لتدريب SmolVLM-256M وSmolVLM-500M، استخدم فريق Hugging Face The Cauldron، وهو مجموعة من 50 مجموعة بيانات عالية الجودة للصور والنصوص، و Docmatix، وهو مجموعة من مسح ملفات مقترنة بتوضيحات مفصلة. تم إنشاء كل منهما من قبل فريق M4 الخاص بـ Hugging Face، الذي يطور تقنيات الذكاء الاصطناعي متعدد الوسائط.

يزعم الفريق أن كل من SmolVLM-256M و SmolVLM-500M تتفوق على نموذج أكبر بكثير، Idefics 80B، في مقاييس الأداء بما في ذلك AI2D، والذي يختبر قدرة النماذج على تحليل مخططات العلوم على مستوى مدارس الصف الأساسي. تتوفر SmolVLM-256M و SmolVLM-500M على الويب بالإضافة إلى التنزيل من Hugging Face تحت ترخيص Apache 2.0، مما يعني أنه يمكن استخدامها دون قيود.
قد تكون النماذج الصغيرة مثل SmolVLM-256M و SmolVLM-500M رخيصة ومتعددة الاستخدامات، لكنها قد تحتوي أيضًا على عيوب ليست بالتلقائية في النماذج الأكبر. وجدت دراسة حديثة من Google DeepMind وMicrosoft Research ومعهد Mila في كيبيك أن العديد من النماذج الصغيرة تؤدي أسوأ من المتوقع في مهام التفكير المعقدة. تخمن الباحثون أن ذلك قد يكون بسبب أن النماذج الأصغر تعرف على أنماط السطح في البيانات، لكنها تجد صعوبة في تطبيق تلك المعرفة في سياقات جديدة.