OpenAI توسع قدرات الصوت في واجهاتها البرمجية بنماذج جديدة للترجمة
أعلنت شركة OpenAI عن طرح حزمة جديدة من ميزات الذكاء الصوتي ضمن واجهاتها البرمجية (API)، في خطوة تستهدف تمكين المطورين من بناء تطبيقات قادرة على التفاعل الصوتي المباشر مع المستخدمين، إلى جانب نسخ المحادثات وترجمتها بشكل لحظي.
وكشفت الشركة عن نموذجها الجديد GPT-Realtime-2، الذي يعتمد على تقنيات صوتية متقدمة تهدف إلى تقديم محادثات أكثر واقعية وطبيعية، مع تحسين القدرة على فهم السياقات والاستجابة للمدخلات المعقدة.
ويأتي الإصدار الجديد امتدادًا لنموذج GPT-Realtime-1.5 السابق، إلا أنه مدعوم بقدرات استدلال مستوحاة من فئة GPT-5، ما يمنحه أداءً أعلى في التعامل مع المحادثات متعددة الطبقات والتفاعلات المركبة.
كما أطلقت الشركة خدمة GPT-Realtime-Translate، المخصصة للترجمة الفورية أثناء المحادثة، بحيث تتيح نقل الكلام بين المتحدثين بسلاسة ودون تأخير يُذكر.
وتدعم الخدمة أكثر من 70 لغة للإدخال، إلى جانب 13 لغة للإخراج الصوتي والترجمة، وفقًا لما أوردته تقارير تقنية من بينها موقع تك كرانش.
وفي السياق ذاته، قدمت OpenAI أداة جديدة لتحويل الكلام إلى نص تحت اسم GPT-Realtime-Whisper، والتي تتيح تفريغ المحادثات الصوتية بشكل مباشر أثناء حدوثها.
وأوضحت الشركة أن هذه المجموعة من الأدوات تمثل تطورًا في تقنيات التفاعل الصوتي، حيث تنتقل من مجرد تنفيذ الأوامر إلى أنظمة قادرة على الاستماع والتحليل والترجمة والنسخ واتخاذ الإجراءات في الوقت الفعلي.
وترى OpenAI أن هذه التقنيات ستنعكس على عدد من القطاعات، من أبرزها خدمة العملاء، إضافة إلى التعليم والإعلام وتنظيم الفعاليات وصناعة المحتوى.

