غوغل تطلق تحسينات واسعة في نماذج جيميني الصوتية

نماذج جيميني الصوتية من غوغل ديب مايند توفر تفاعلاً صوتياً طبيعياً وتحسينات في إدارة الحوارات المتعددة والمهام المعقدة.

فريق التحرير
فريق التحرير
تحسينات نماذج جيميني الصوتية

ملخص المقال

إنتاج AI

كشفت "غوغل ديب مايند" عن تحسينات في نماذج جيميني الصوتية، مما يجعل التفاعل الصوتي أكثر طبيعية ويدعم الأوامر المعقدة. تشمل التحديثات نسخة محدثة من نموذج «Gemini 2.5 Flash Native Audio» وتحسينات في نماذج التحويل النصي إلى كلام.

النقاط الأساسية

  • «غوغل ديب مايند» تُحسّن نماذج جيميني الصوتية للتفاعل الطبيعي واللحظي.
  • التحسينات تشمل نسخة محدثة من «Gemini 2.5 Flash Native Audio» للوكلاء الصوتيين.
  • تحديثات في نماذج التحويل النصي إلى كلام لتحسين جودة الصوت والتحكم فيه.

كشفت «غوغل ديب مايند» عن تحسينات كبيرة في نماذج جيميني الصوتية، بهدف جعل التفاعل الصوتي مع المساعدات والأنظمة الذكية أكثر طبيعية وسلاسة في الزمن الحقيقي، مع تعزيز دقة تنفيذ الأوامر المعقدة والقدرة على متابعة الحوارات متعددة المراحل دون انقطاع في السياق.

تتضمن هذه التحديثات إصدار نسخة محدثة من نموذج «Gemini 2.5 Flash Native Audio» للوكلاء الصوتيين المباشرين، إلى جانب تحسينات في نماذج التحويل النصي إلى كلام (Text-to-Speech) المستخدمة في منتجات وخدمات سحابية متعددة.

القدرات الجديدة لنموذج Gemini 2.5

رفع التحديث الجديد قدرة النموذج على إدارة «سير عمل» معقد والتنقل بين التعليمات الصوتية للمستخدمين مع الحفاظ على حوار طبيعي في الزمن الفعلي. أصبح النموذج أكثر كفاءة في التعامل مع سلاسل من المهام المتتابعة، مثل جمع معلومات لحظية من مصادر خارجية وإدماجها في الرد الصوتي دون كسر إيقاع المحادثة.

كما تم تحسين دقة «استدعاء الوظائف» Function Calling، مع نتائج متقدمة في اختبار «ComplexFuncBench Audio»، حيث يتفوق Gemini 2.5 على النسخ السابقة ونماذج منافسة في مهام تتضمن سلسلة أوامر صوتية متعددة.

الالتزام بالتعليمات وإدارة الحوارات الطويلة

Advertisement

أصبحت نسبة الالتزام بمواصفات المخرجات نحو 90% بعد أن كانت 84% في النسخة السابقة، ما يساعد المؤسسات على بناء وكلاء صوتيين يقدمون ردوداً متسقة مع سياسات المحتوى ومتطلبات العلامة التجارية. كما أصبح النموذج أفضل في إدارة الحوارات متعددة الجولات، مع قدرة محسّنة على استعادة سياق الجمل السابقة في المحادثات الطويلة.

التوافر والتطبيقات العملية

بدأت التحديثات في الظهور ضمن منتجات غوغل مثل «Google AI Studio» و«Vertex AI»، وبدأ طرحها تدريجياً ضمن «Gemini Live» و«Search Live» لتقديم تفاعل صوتي أكثر طبيعية في البحث والمحادثة. يمكن للمستخدمين الآن تبادل ملفات وصور ومقاطع فيديو مع الحصول على ردود منطوقة في الوقت الحقيقي.

من الجانب التقني للمطورين، تشير وثائق «Gemini API» إلى أن النسخة الجديدة «gemini-2.5-flash-native-audio-preview-12-2025» محسّنة للتعامل مع «تدفقات عمل معقدة» عبر واجهة Live API، فيما يظهر نموذج «gemini-live-2.5-flash-native-audio» ضمن قائمة النماذج المستقرة في Vertex AI للدمج الآمن في تطبيقات الإنتاج.

تحسينات نماذج التحويل النصي إلى كلام

أعلنت غوغل أيضاً عن تحديثات في نماذج «Gemini 2.5» للتحويل من النص إلى كلام عبر نماذج «Flash» و«Pro» عالية الجودة، مع إمكانية التحكم في سرعة الإلقاء، النبرة، الإيقاع، والانفعال الصوتي، وصولاً إلى جودة صوت تعادل «جودة الاستوديو» في بعض السيناريوهات.

Advertisement

تتيح النماذج الصوتية الجديدة توليد أصوات لمتحدث واحد أو عدة متحدثين مع الحفاظ على تمايز الشخصيات واستمرارية نبرتها، ما يفيد تطبيقات الكتب الصوتية، الألعاب، والتدريب الإلكتروني. كما يساهم التحكم في الإيقاع والنطق في تحسين وضوح الكلمات في اللغات المختلفة، خصوصاً الأسماء والمصطلحات المتخصصة.