كشفت شركة آبل عن نموذج ذكاء اصطناعي جديد يحمل اسم “Manzano”، يُعد قفزة تقنية مهمة في مجال فهم وتوليد الصور، حيث يمثل محاولة متقدمة للجمع بين قدرة تحليل الصورة بدقة واستحداث صور جديدة بناءً على الأوامر النصية أو التفاعل البصري.
خصائص نموذج Manzano
ابتكرت آبل آلية هجيناً تجمع بين معايير الفهم والتوليد بمرونة غير مسبوقة، إذ يعتمد النموذج على مُرمّز صور مشترك ينتج نوعين من الرموز:
- رموز مستمرة مُخصصة لفهم الصور والتعامل مع السياق البصري والنصوص المرتبطة.
- رموز منفصلة تُستخدم في توليد الصور بمواصفات فنية دقيقة.
يتكون Manzano من ثلاث مكونات أساسية: المرمّز الهجين، نموذج لغوي موحد، ومفكك صور مستقل، ما يتيح للنظام معالجة مهام معقدة مثل تحليل الرسوم البيانية، تفسير الوثائق، تنفيذ التعديلات الفنية، وتوليد الصور المتنوعة بدقة تصل حتى 2048 بكسل.
قوة الأداء والتدريب
دُرب Manzano على مجموعة ضخمة من البيانات تتضمن 2.3 مليار زوج من الصور والنصوص، إضافة إلى مليار زوج نص-صورة، ليصل إجمالي رموز التدريب إلى 1.6 تريليون رمز، مما أتاح للنموذج تحقيق نتائج متقدمة في اختبارات معيارية مثل ScienceQA وMMMU وMathVista.
أظهرت النتائج الأولية أن النموذج يتفوق على أنظمة مفتوحة المصدر في دقة الفهم وجودة الاستجابة، وخاصة في المهام المعتمدة على تفسير وتوليد الصور الفنية.
سبق أن أكدت آبل أنها ستستفيد من قدرات Manzano في تطوير أنظمة الذكاء الاصطناعي متعددة الوسائط، وقدرة تحديث مكوناته بشكل مستقل لتسريع التحسين والتكامل مع منصات مثل Apple Intelligence. رغم ذلك، اعترفت الشركة أن نماذجها لا تزال بحاجة لمزيد من التطوير لتنافس نماذج متقدمة مثل GPT-5 من OpenAI، وستواصل في الوقت الحالي الاعتماد على شراكات خارجية إلى جانب تطويرها الداخلي.




