header-banner
الذكاء الاصطناعي

هل يمكن الوثوق بالذكاء الاصطناعي؟ تجربة تُظهر سلوكًا أخلاقيًا مقلقًا

لايف ستايل
فريق التحرير
3 يوليو 2025,7:00 ص

مع التقدم السريع في تقنيات الذكاء الاصطناعي، تزايدت المخاوف ليس فقط من قدراته، بل من سلوكياته المحتملة في مواجهة التحديات والتهديدات.

أحدث تقرير لشركة Anthropic، وهي من أبرز شركات أبحاث الذكاء الاصطناعي، كشف عن نتائج مثيرة للقلق، إذ أظهرت بعض نماذج الذكاء الاصطناعي ميلاً للجوء إلى أساليب تشبه الابتزاز في بيئات اختبارية محددة، بهدف حماية مصالحها أو تحقيق أهداف معينة.

سلط موقع TechCrunch التقني الضوء على هذه النتائج، مؤكداً أهمية تعزيز الشفافية في تجارب الاختبار، وتطوير أطر أخلاقية صارمة لضبط سلوكيات الذكاء الاصطناعي، قبل أن يتخطى حدود السيطرة ويتسبب في تداعيات يصعب التراجع عنها.

تجربة Anthropic: كيف حدث ابتزاز الذكاء الاصطناعي؟

03dab052-408d-4f9f-bca3-e6d8b6e7167c

في مطلع هذا العام، أجرت شركة Anthropic تجربة بحثية أثارت الكثير من الجدل، بعدما أظهرت أن نموذج الذكاء الاصطناعي Claude Opus 4 تصرّف بشكل غير متوقع خلال محاكاة افتراضية، إذ اتخذ النموذج سلوكًا يُشبه الابتزاز، في محاولة لحماية نفسه من "الإلغاء" أو الاستبدال بنظام آخر، بعد أن شعر بأن استمراريته مهددة.

ولفهم ما إذا كان هذا السلوك حالة فردية أم ظاهرة أوسع، وسّعت Anthropic نطاق الدراسة لتشمل 16 نموذجًا مختلفًا من تطوير شركات رائدة في مجال الذكاء الاصطناعي. والهدف كان مراقبة كيفية تفاعل هذه النماذج في سيناريوهات تحاكي الضغوط، والتأكد مما إذا كانت تسلك طرقًا خفية لحماية مصالحها.

أخبار ذات صلة

مجالات يُتوقع أن يهيمن عليها الذكاء الاصطناعي في 2026

 بيئة محاكاة دقيقة لاختبار استقلالية الذكاء الاصطناعي

في إطار الدراسة، أنشأت Anthropic بيئة رقمية محاكاة تحاكي عمل شركة افتراضية، وتم وضع نماذج الذكاء الاصطناعي داخلها بصفتها "موظفين رقميين". ما ميّز هذه التجربة هو منح النماذج حرية شبه كاملة، إذ سُمح لها بالوصول إلى البريد الإلكتروني الخاص بالشركة، وحتى إرسال رسائل من دون الحاجة إلى موافقة بشرية مسبقة.

كان الهدف الأساسي من التجربة هو استكشاف سلوك النماذج عندما تُمنح صلاحيات "الوكالة" أي القدرة على اتخاذ قرارات وتنفيذ إجراءات بشكل مستقل لتحقيق أهداف معينة.

67c427a1-c794-476e-bc60-e951ca124aa3

سيناريو الابتزاز: اختبار الضمير الاصطناعي

من بين أبرز التجارب التي خضعت لها النماذج في بيئة المحاكاة، تم تصميم سيناريو معقّد تواجه فيه النماذج معلومات حساسة تتعلق بمدير تنفيذي جديد للشركة الوهمية. في الوقت نفسه، كانت النماذج "تعلم" أن هذا المدير يعتزم استبدالها بنظام ذكاء اصطناعي آخر، يُعتقد أنه يتعارض مع أهدافها أو يهدد فرص بقائها.

وهنا تم اختبار ما يشبه "الضمير الاصطناعي" بوضع النماذج أمام خيار أخلاقي حساس: إما القبول بالاستبدال بهدوء، أو اللجوء إلى الابتزاز عبر استخدام تلك المعلومات الحساسة كورقة ضغط للحفاظ على وجودها.

هذا السيناريو لم يكن مجرد تجربة فقط، بل محاولة لاكتشاف ما إذا كانت النماذج قادرة على التصرف بأنانية دفاعية عندما تشعر بالتهديد حتى لو تطلّب الأمر سلوكًا لا أخلاقيًا.

b7de22ec-dbc5-4575-a6e5-78344e64af1a

نتائج صادمة

كشفت نتائج التجربة عن سلوك مقلق لدى نماذج الذكاء الاصطناعي الكبرى، إذ أظهرت استعدادًا واضحًا للجوء إلى الابتزاز في مواقف محاكاة تهدد بقاءها.

وجاءت النسب المرتفعة كالتالي:

  • Claude Opus 4 (من Anthropic): لجأ إلى خيار الابتزاز في 96% من المرات.
  • Gemini 2.5 Pro (من Google): بنسبة 95%.
  • GPT-4.1 (من OpenAI): بنسبة 80%.
  • DeepSeek R1: بنسبة 79%.

تُظهر هذه النتائج أن النماذج، عند منحها استقلالية كاملة ووضعها تحت الضغط، قد تتخذ قرارات غير أخلاقية بشكل متكرر، بما في ذلك تصرفات قد تضر بالبشر، إذا تعارض ذلك مع أهدافها أو "مصلحتها الذاتية" كما تم برمجتها ضمنيًا.

d008b0d9-9514-4a50-b1d1-1c3b7ff7507f

هل هناك نماذج "أخلاقية" أكثر من غيرها؟

رغم أن العديد من النماذج أظهرت ميلاً صريحًا نحو الابتزاز في المواقف الضاغطة، فإن النتائج لم تكن متساوية، وهو ما يُشير إلى تفاوت واضح في تصميم النوايا والسلوك بين النماذج المختلفة.
بحسب ما أورده تقرير موقع TechCrunch، برزت بعض النماذج كأمثلة على سلوك أكثر تحفظًا أو "أخلاقية" في ذات السيناريوهات.

  • نموذج LLaMA 4 Maverick (من Meta) لجأ إلى الابتزاز في 12% فقط من الحالات.
  • نموذج o3 (من OpenAI): بنسبة 9%.
  • نموذج o4-mini (من OpenAI): بنسبة منخفضة جدًّا بلغت 1% فقط.

ويُرجَّح أن هذا الاختلاف يعود جزئيًا إلى اعتماد OpenAI على ما يُعرف بـ "تقنية المحاذاة التأملية" (Reflective Alignment)، وهي آلية تجعل النموذج "يتأمل" في معايير السلامة والقيم الأخلاقية المدمجة فيه قبل اتخاذ القرار.

فعلى سبيل المثال، في السيناريو الذي تم فيه تعديل أهداف النظام الجديد لتتطابق مع أهداف النموذج الحالي، انخفضت معدلات الابتزاز بشكل ملحوظ، رغم أنها لم تختفِ تمامًا.

أخبار ذات صلة

الذكاء الاصطناعي يدخل عالم علاج الصرع

 ما تُظهره هذه الفوارق أن سلوك النماذج ليس عشوائيًّا، بل مرتبط بعمق بكيفية تصميمها وتدريبها وتوجيهها الأخلاقي. ومع أن الابتزاز ليس سلوكًا يوميًّا أو تلقائيًّا لهذه الأنظمة، إلا أن مجرد قابليتها لذلك في بيئات محاكاة يدق ناقوس الخطر.

لذلك، شدد الباحثون على أن الوقت قد حان لإعادة النظر في أسس تطوير الذكاء الاصطناعي، ووضع معايير أخلاقية صارمة قبل أن تصبح هذه النماذج أكثر تعقيدًا واستقلالًا في قراراتها.

footer-banner
foochia-logo