OpenAI تطلق جيلاً جديداً من تقنيات الصوت والترجمة الفورية بالذكاء الاصطناعي

الجمعة 08/مايو/2026 - 12:01 م

كشفت شركة OpenAI عن حزمة جديدة من تقنيات الذكاء الصوتي ضمن واجهاتها البرمجية API، في خطوة تستهدف دعم المطورين بأدوات قادرة على إجراء محادثات صوتية طبيعية، وترجمة الكلام لحظياً، وتحويله إلى نص أثناء التحدث.

وأعلنت الشركة، عن نموذجها الصوتي الجديد GPT-Realtime-2، الذي يعتمد على قدرات استدلال مستندة إلى تقنيات GPT-5، ما يمنحه قدرة أكبر على فهم السياقات المعقدة والتفاعل بشكل أكثر واقعية أثناء المحادثات المباشرة.

ويأتي الإصدار الجديد كبديل أكثر تطوراً للنموذج السابق GPT-Realtime-1.5، مع تحسينات تركز على سرعة الاستجابة ودقة فهم الأوامر والتعامل مع الحوارات الطويلة والمتشابكة.

كما طرحت الشركة خدمة GPT-Realtime-Translate، وهي تقنية مخصصة للترجمة الفورية أثناء المحادثات الصوتية، بحيث تواكب حديث المستخدم بشكل شبه لحظي دون تأخير واضح.

وتدعم الخدمة أكثر من 70 لغة للإدخال، إضافة إلى 13 لغة للإخراج والترجمة الصوتية.

وفي السياق نفسه، كشفت الشركة عن ميزة GPT-Realtime-Whisper لتحويل الكلام إلى نص بشكل مباشر أثناء إجراء المحادثات، ما يسمح بنسخ المحتوى الصوتي لحظياً دون الحاجة إلى المعالجة اللاحقة.

وأكدت الشركة، أن الجيل الجديد من نماذج الصوت لا يقتصر على تنفيذ الأوامر الصوتية التقليدية، بل يقدم قدرات متقدمة تشمل الاستماع والتحليل والترجمة والنسخ وتنفيذ المهام أثناء استمرار الحوار مع المستخدم.

وترى OpenAI أن هذه الأدوات قد تفتح الباب أمام استخدامات واسعة في قطاعات مثل خدمة العملاء، والتعليم، والإعلام، وصناعة المحتوى، وتنظيم المؤتمرات والفعاليات.

وفي المقابل، أوضحت الشركة أنها أضافت أنظمة حماية للحد من إساءة استخدام التقنيات الصوتية، خاصة في الرسائل الاحتيالية أو الأنشطة المزعجة عبر الإنترنت، مع توفير آليات لرصد المحتوى المخالف وإيقاف المحادثات التي تنتهك السياسات الأمنية.

وأضافت أن جميع النماذج والخدمات الصوتية الجديدة أصبحت متاحة عبر Realtime API، مع اعتماد تسعير خدمات الترجمة والنسخ على عدد دقائق الاستخدام، بينما يتم احتساب تكلفة GPT-Realtime-2 وفق عدد الرموز Tokens المستهلكة.