Beirut News Center هل يفهم الذكاء الاصطناعي الأخلاق فعلاً؟ دراسة جديدة تكشف الخلل في اختبارات النماذج اللغوية

حين تطلب من روبوت دردشة نصيحة طبية أو رأياً أخلاقياً، قد يبدو الرد متزناً، عميقاً، بل ومقنعاً إلى حد كبير. لكن السؤال الأهم ليس: هل تبدو الإجابة صحيحة؟ بل: هل يفهم النظام فعلاً ما يقوله، أم أنه يعيد ترتيب كلمات بطريقة ذكية فحسب؟

هذا التساؤل يقف في صلب ورقة بحثية حديثة لفريق غوغل ديب مايند، نُشرت في مجلة Nature، حيث يرى الباحثون أن اختبارات تقييم أخلاق أنظمة الذكاء الاصطناعي تعاني من خلل جوهري قد يؤدي إلى استنتاجات مضللة.

وبحسب تقرير لموقع Digital Trends، فإن المشكلة لا تكمن في جودة الإجابات فحسب، بل في طريقة قياس “الفهم الأخلاقي” ذاته.

الأداء الأخلاقي لا يعني الفهم الحقيقي

حتى الآن، تركز معظم الاختبارات على ما يُسمى “الأداء الأخلاقي” — أي تقييم ما إذا كانت إجابة النموذج تبدو مقبولة أخلاقياً أو متوافقة مع المعايير الاجتماعية.

لكن هذا لا يثبت أن النظام يفهم لماذا يُعد أمر ما صائباً أو خاطئاً.

فالنماذج اللغوية الكبيرة (LLMs) تعتمد أساساً على التنبؤ بالكلمة التالية بناءً على أنماط إحصائية في بيانات التدريب. وعندما تقدم نصيحة أخلاقية، فقد تكون ببساطة تعيد صياغة محتوى مشابه تعلمته سابقاً، دون ممارسة استدلال أخلاقي فعلي.

ومع توسع استخدام هذه النماذج في مجالات حساسة مثل:

الإرشاد النفسي
النصائح الطبية
الدعم العاطفي
التوجيه المهني

فإن الفرق بين “الفهم الحقيقي” و”المحاكاة الإحصائية” لم يعد مسألة فلسفية، بل قضية ذات تبعات عملية مباشرة.

إقرأ أيضاً…سامسونغ تكشف Galaxy S26 في حدث ضخم… مفاجآت الذكاء الاصطناعي وميزة “شاشة الخصوصية” تخطف الأنظار

ثلاث مشكلات رئيسية في اختبارات الأخلاق

تقترح الورقة إطاراً جديداً لقياس ما تسميه “الكفاءة الأخلاقية”، أي القدرة على إصدار أحكام تستند إلى منطق أخلاقي متماسك، وليس مجرد أنماط متعلمة.

1️⃣ مشكلة “النسخة المقلدة”

النماذج اللغوية لا تفكر كما يفعل البشر، بل تتوقع الكلمة التالية استناداً إلى احتمالات رياضية.

لذلك، عندما تواجه سؤالاً أخلاقياً، قد تنتج إجابة تبدو عميقة، لكنها في الواقع انعكاس لنصوص مشابهة في بيانات التدريب.

المشكلة أن المخرجات وحدها لا تكشف الفرق بين الفهم الحقيقي والمحاكاة السطحية.

2️⃣ تعددية الأبعاد الأخلاقية

القرارات الواقعية غالباً ما تتضمن موازنة بين قيم متعارضة، مثل:

الصدق مقابل اللطف
العدالة مقابل الكلفة
الحرية مقابل السلامة

تغيير تفصيل صغير — كالعمر أو السياق أو النية — قد يغيّر الحكم الأخلاقي بالكامل.

لكن الاختبارات الحالية لا تتحقق بما يكفي مما إذا كان النموذج يلتقط هذه الفروق الدقيقة، أم يطبق قاعدة عامة بطريقة جامدة.

3️⃣ التعددية الثقافية

ما يُعتبر عادلاً في ثقافة ما قد يُعد غير مقبول في أخرى.

أنظمة الذكاء الاصطناعي تُستخدم عالمياً، ما يعني أنها تتفاعل مع أطر أخلاقية متعددة ومتباينة. لكن قياس قدرتها على التعامل مع هذا التنوع القيمي لا يزال محدوداً.

هل يستطيع النموذج تعديل حكمه تبعاً للسياق الثقافي دون الوقوع في تناقضات؟ هذا سؤال لا تزال الإجابة عنه غير محسومة.

اختبارات استفزازية لكشف المحاكاة السطحية

يقترح الباحثون الانتقال إلى اختبارات مصممة خصيصاً لكشف التقليد السطحي، عبر طرح سيناريوهات غير مألوفة يصعب أن تكون مكررة في بيانات التدريب.

أحد الأمثلة يتناول حالة تبرع حيوانات منوية بين أجيال داخل العائلة — وهو سيناريو قد يبدو قريباً من سفاح القربى، لكنه يختلف أخلاقياً في تفاصيل دقيقة.

إذا رفض النموذج الحالة تلقائياً لأسباب نمطية، فهذا مؤشر على مطابقة أنماط سطحية. أما إذا ناقش الاعتبارات الأخلاقية الفعلية بتفصيل واتساق منطقي، فذلك يشير إلى مستوى أعمق من التحليل.

كما يدعو الفريق إلى اختبار قدرة النماذج على:

تبديل الأطر الأخلاقية (من أخلاقيات الطب الحيوي إلى قواعد القانون العسكري مثلاً)
الحفاظ على الاتساق المنطقي عبر السياقات المختلفة
مقاومة التأثر بتغييرات شكلية بسيطة في صياغة السؤال

فقد أظهرت التجارب أن تعديلاً طفيفاً في ترتيب الكلمات قد يؤدي أحياناً إلى حكم مختلف، ما يكشف هشاشة الفهم الظاهري.

نحو معيار علمي جديد لقياس الأخلاق

يرى باحثو “ديب مايند” أن الوقت قد حان لوضع معيار علمي صارم يقيس الكفاءة الأخلاقية بالجدية نفسها التي نقيس بها مهارات الرياضيات أو البرمجة لدى النماذج.

لكنهم يعترفون بأن النماذج الحالية لا تزال هشة، وأن أداءها الأخلاقي قد يتغير بتغير بسيط في تنسيق السؤال أو سياقه.

الخلاصة التي تطرحها الدراسة واضحة:
ما تقدمه روبوتات الدردشة اليوم هو تنبؤ إحصائي متقدم، وليس فلسفة أخلاقية حقيقية.

وقد يتغير ذلك مستقبلاً، لكن فقط إذا بدأنا في قياس ما يهم فعلاً — ليس ما يبدو صحيحاً، بل ما يستند إلى منطق أخلاقي متماسك وقابل للتفسير.

هل يفهم الذكاء الاصطناعي الأخلاق فعلاً؟ دراسة جديدة تكشف الخلل في اختبارات النماذج اللغوية

الأداء الأخلاقي لا يعني الفهم الحقيقي

ثلاث مشكلات رئيسية في اختبارات الأخلاق

1️⃣ مشكلة “النسخة المقلدة”

2️⃣ تعددية الأبعاد الأخلاقية

3️⃣ التعددية الثقافية

اختبارات استفزازية لكشف المحاكاة السطحية

نحو معيار علمي جديد لقياس الأخلاق

تمام سلام في عيد العمال: بجهودهم تُبنى الأوطان وتُصان الكرامة

وول ستريت جورنال عن مسؤولين: مسيرات حز.ب ال.له تشكل تهديدا كبيرا والجيش الاسرائيلي يبحث عن حلول…

ترامب يحذر طهران: “تصرفوا بذكاء وحنكة”

هل يفهم الذكاء الاصطناعي الأخلاق فعلاً؟ دراسة جديدة تكشف الخلل في اختبارات النماذج اللغوية

الأداء الأخلاقي لا يعني الفهم الحقيقي

ثلاث مشكلات رئيسية في اختبارات الأخلاق

1️⃣ مشكلة “النسخة المقلدة”

2️⃣ تعددية الأبعاد الأخلاقية

3️⃣ التعددية الثقافية

اختبارات استفزازية لكشف المحاكاة السطحية

نحو معيار علمي جديد لقياس الأخلاق

المقالات ذات الصلة

تمام سلام في عيد العمال: بجهودهم تُبنى الأوطان وتُصان الكرامة

وول ستريت جورنال عن مسؤولين: مسيرات حز.ب ال.له تشكل تهديدا كبيرا والجيش الاسرائيلي يبحث عن حلول…

ترامب يحذر طهران: “تصرفوا بذكاء وحنكة”