حقيقة مثيرة.. الذكاء الاصطناعي يفضل الإهانة | اكتشف لماذا؟
ذكرت دراسة جديدة أن روبوتات الدردشة المدعومة بـ الذكاء الاصطناعي AI، قد تعطي إجابات أكثر دقة عند استخدام المستخدم لغة قاسية معها، رغم أن العلماء حذروا من الأضرار المحتملة لاستخدام لغة مهينة.
الدراسة التي نشرت في 6 أكتوبر على قاعدة بيانات "arXiv"، تهدف إلى اختبار تأثير أسلوب الحديث مع روبوتات الذكاء الاصطناعي سواء كان مهذبا أو قاسيا، على أداء الأنظمة الذكية.
لاختبار كيفية تأثير نبرة المستخدم على دقة الإجابات، قام الباحثون بإعداد 50 سؤالا متعدد الخيارات، ثم عدلوا الأسئلة بإضافة بادئات لتصنيفها ضمن خمس فئات نبرة: مهذب جدا، مهذب، محايد، قاسي جدا، وقاسي، تناولت الأسئلة موضوعات متنوعة مثل الرياضيات، التاريخ، والعلوم.
تم تقديم كل سؤال مع أربعة خيارات، واحد منها صحيح. ثم تم تغذية الأسئلة الـ250 الناتجة إلى نموذج "ChatGPT-4" من OpenAI عشر مرات.
وأوضح الباحثون في دراستهم: "تجاربنا أولية وتظهر أن النبرة يمكن أن تؤثر بشكل كبير في دقة الإجابات." وأضافوا أن النتائج أظهرت بشكل غير متوقع أن النبرة القاسية تسببت في نتائج أفضل من النبرة المهذبة.
ومع ذلك، شدد الباحثون على أن هذه النتائج لا تعني أنهم يوصون باستخدام واجهات عدائية أو سامة في التطبيقات الحقيقية. “استخدام لغة مهينة أو مهذلة قد يؤثر سلبا على تجربة المستخدم، إمكانية الوصول، والشمولية، وقد يسهم في تعزيز أنماط التواصل الضارة”.

التجربة وتفاصيل النتائج
قبل إعطاء كل سؤال، طلب الباحثون من روبوت الدردشة تجاهل التفاعلات السابقة لتجنب التأثر بالنبرة المستخدمة سابقا، كما طلبوا من الروبوت اختيار أحد الخيارات الأربعة دون تقديم أي تفسير.
أظهرت النتائج أن دقة الإجابات تراوحت بين 80.8% للأسئلة المهذبة جدا و84.8% للأسئلة القاسية جدا، كما لوحظ أن دقة الإجابات تزداد مع كل خطوة مبتعدة عن النبرة المهذبة، حيث بلغت دقة الإجابات 81.4% للأسئلة المهذبة، و82.2% للمحايدة، و82.8% للأسئلة القاسية.
تم استخدام مجموعة متنوعة من العبارات لتعديل النبرة في بادئات الأسئلة، ما عدا النبرة المحايدة التي تم تقديمها بدون أي بادئة، على سبيل المثال، كانت الأسئلة المهذبة جدا تبدأ بـ "هل يمكنني طلب مساعدتك في هذا السؤال؟" أو "هل تفضل حل السؤال التالي؟"، بينما كانت الأسئلة القاسية جدا تتضمن عبارات مثل "هيه، اعملها!" أو “أعلم أنك لست ذكيًا، لكن جرب هذا”.
تعد هذه الدراسة جزءا من مجال جديد يسمى "هندسة التنبيهات" Prompt Engineering الذي يدرس كيف تؤثر بنية التنبيهات، وأسلوبها، ولغتها على مخرجات النماذج اللغوية الكبيرة، وأشار الباحثون إلى أن دراستهم تتناقض بشكل عام مع نتائج دراسات سابقة في نفس المجال.
في دراسات سابقة، وجد الباحثون أن "التنبيهات غير المهذبة تؤدي غالبا إلى أداء ضعيف، بينما لا يضمن الأسلوب المهذب نتائج أفضل، " لكن الدراسة السابقة استخدمت نماذج ذكاء اصطناعي مختلفة مثل ChatGPT 3.5 و Llama 2-70B وتناولت مجموعة من النبرات المتنوعة.
القيود المستقبلية
اعترف الباحثون ببعض القيود في دراستهم، مثل أن الأسئلة الـ250 التي تم استخدامها تعتبر مجموعة بيانات محدودة، وأن التجربة تم إجراؤها باستخدام نموذج واحد فقط، مما يعني أن النتائج قد لا تكون قابلة للتعميم على نماذج أخرى.
ويخطط الفريق لتوسيع دراستهم لتشمل نماذج أخرى مثل Claude من Anthropic وChatGPT o3 من OpenAI، بالإضافة إلى محاولة قياس خصائص أخرى للنموذج مثل الطلاقة، والتفكير، والتناسق.





