كشفت «غوغل ديب مايند» عن تحسينات كبيرة في نماذج جيميني الصوتية، بهدف جعل التفاعل الصوتي مع المساعدات والأنظمة الذكية أكثر طبيعية وسلاسة في الزمن الحقيقي، مع تعزيز دقة تنفيذ الأوامر المعقدة والقدرة على متابعة الحوارات متعددة المراحل دون انقطاع في السياق.
تتضمن هذه التحديثات إصدار نسخة محدثة من نموذج «Gemini 2.5 Flash Native Audio» للوكلاء الصوتيين المباشرين، إلى جانب تحسينات في نماذج التحويل النصي إلى كلام (Text-to-Speech) المستخدمة في منتجات وخدمات سحابية متعددة.
القدرات الجديدة لنموذج Gemini 2.5
رفع التحديث الجديد قدرة النموذج على إدارة «سير عمل» معقد والتنقل بين التعليمات الصوتية للمستخدمين مع الحفاظ على حوار طبيعي في الزمن الفعلي. أصبح النموذج أكثر كفاءة في التعامل مع سلاسل من المهام المتتابعة، مثل جمع معلومات لحظية من مصادر خارجية وإدماجها في الرد الصوتي دون كسر إيقاع المحادثة.
كما تم تحسين دقة «استدعاء الوظائف» Function Calling، مع نتائج متقدمة في اختبار «ComplexFuncBench Audio»، حيث يتفوق Gemini 2.5 على النسخ السابقة ونماذج منافسة في مهام تتضمن سلسلة أوامر صوتية متعددة.
الالتزام بالتعليمات وإدارة الحوارات الطويلة
أصبحت نسبة الالتزام بمواصفات المخرجات نحو 90% بعد أن كانت 84% في النسخة السابقة، ما يساعد المؤسسات على بناء وكلاء صوتيين يقدمون ردوداً متسقة مع سياسات المحتوى ومتطلبات العلامة التجارية. كما أصبح النموذج أفضل في إدارة الحوارات متعددة الجولات، مع قدرة محسّنة على استعادة سياق الجمل السابقة في المحادثات الطويلة.
التوافر والتطبيقات العملية
بدأت التحديثات في الظهور ضمن منتجات غوغل مثل «Google AI Studio» و«Vertex AI»، وبدأ طرحها تدريجياً ضمن «Gemini Live» و«Search Live» لتقديم تفاعل صوتي أكثر طبيعية في البحث والمحادثة. يمكن للمستخدمين الآن تبادل ملفات وصور ومقاطع فيديو مع الحصول على ردود منطوقة في الوقت الحقيقي.
من الجانب التقني للمطورين، تشير وثائق «Gemini API» إلى أن النسخة الجديدة «gemini-2.5-flash-native-audio-preview-12-2025» محسّنة للتعامل مع «تدفقات عمل معقدة» عبر واجهة Live API، فيما يظهر نموذج «gemini-live-2.5-flash-native-audio» ضمن قائمة النماذج المستقرة في Vertex AI للدمج الآمن في تطبيقات الإنتاج.
تحسينات نماذج التحويل النصي إلى كلام
أعلنت غوغل أيضاً عن تحديثات في نماذج «Gemini 2.5» للتحويل من النص إلى كلام عبر نماذج «Flash» و«Pro» عالية الجودة، مع إمكانية التحكم في سرعة الإلقاء، النبرة، الإيقاع، والانفعال الصوتي، وصولاً إلى جودة صوت تعادل «جودة الاستوديو» في بعض السيناريوهات.
تتيح النماذج الصوتية الجديدة توليد أصوات لمتحدث واحد أو عدة متحدثين مع الحفاظ على تمايز الشخصيات واستمرارية نبرتها، ما يفيد تطبيقات الكتب الصوتية، الألعاب، والتدريب الإلكتروني. كما يساهم التحكم في الإيقاع والنطق في تحسين وضوح الكلمات في اللغات المختلفة، خصوصاً الأسماء والمصطلحات المتخصصة.




