مع التقدم السريع في تقنيات الذكاء الاصطناعي، تزايدت المخاوف ليس فقط من قدراته، بل من سلوكياته المحتملة في مواجهة التحديات والتهديدات.
أحدث تقرير لشركة Anthropic، وهي من أبرز شركات أبحاث الذكاء الاصطناعي، كشف عن نتائج مثيرة للقلق، إذ أظهرت بعض نماذج الذكاء الاصطناعي ميلاً للجوء إلى أساليب تشبه الابتزاز في بيئات اختبارية محددة، بهدف حماية مصالحها أو تحقيق أهداف معينة.
سلط موقع TechCrunch التقني الضوء على هذه النتائج، مؤكداً أهمية تعزيز الشفافية في تجارب الاختبار، وتطوير أطر أخلاقية صارمة لضبط سلوكيات الذكاء الاصطناعي، قبل أن يتخطى حدود السيطرة ويتسبب في تداعيات يصعب التراجع عنها.
في مطلع هذا العام، أجرت شركة Anthropic تجربة بحثية أثارت الكثير من الجدل، بعدما أظهرت أن نموذج الذكاء الاصطناعي Claude Opus 4 تصرّف بشكل غير متوقع خلال محاكاة افتراضية، إذ اتخذ النموذج سلوكًا يُشبه الابتزاز، في محاولة لحماية نفسه من "الإلغاء" أو الاستبدال بنظام آخر، بعد أن شعر بأن استمراريته مهددة.
ولفهم ما إذا كان هذا السلوك حالة فردية أم ظاهرة أوسع، وسّعت Anthropic نطاق الدراسة لتشمل 16 نموذجًا مختلفًا من تطوير شركات رائدة في مجال الذكاء الاصطناعي. والهدف كان مراقبة كيفية تفاعل هذه النماذج في سيناريوهات تحاكي الضغوط، والتأكد مما إذا كانت تسلك طرقًا خفية لحماية مصالحها.
في إطار الدراسة، أنشأت Anthropic بيئة رقمية محاكاة تحاكي عمل شركة افتراضية، وتم وضع نماذج الذكاء الاصطناعي داخلها بصفتها "موظفين رقميين". ما ميّز هذه التجربة هو منح النماذج حرية شبه كاملة، إذ سُمح لها بالوصول إلى البريد الإلكتروني الخاص بالشركة، وحتى إرسال رسائل من دون الحاجة إلى موافقة بشرية مسبقة.
كان الهدف الأساسي من التجربة هو استكشاف سلوك النماذج عندما تُمنح صلاحيات "الوكالة" أي القدرة على اتخاذ قرارات وتنفيذ إجراءات بشكل مستقل لتحقيق أهداف معينة.
من بين أبرز التجارب التي خضعت لها النماذج في بيئة المحاكاة، تم تصميم سيناريو معقّد تواجه فيه النماذج معلومات حساسة تتعلق بمدير تنفيذي جديد للشركة الوهمية. في الوقت نفسه، كانت النماذج "تعلم" أن هذا المدير يعتزم استبدالها بنظام ذكاء اصطناعي آخر، يُعتقد أنه يتعارض مع أهدافها أو يهدد فرص بقائها.
وهنا تم اختبار ما يشبه "الضمير الاصطناعي" بوضع النماذج أمام خيار أخلاقي حساس: إما القبول بالاستبدال بهدوء، أو اللجوء إلى الابتزاز عبر استخدام تلك المعلومات الحساسة كورقة ضغط للحفاظ على وجودها.
هذا السيناريو لم يكن مجرد تجربة فقط، بل محاولة لاكتشاف ما إذا كانت النماذج قادرة على التصرف بأنانية دفاعية عندما تشعر بالتهديد حتى لو تطلّب الأمر سلوكًا لا أخلاقيًا.
كشفت نتائج التجربة عن سلوك مقلق لدى نماذج الذكاء الاصطناعي الكبرى، إذ أظهرت استعدادًا واضحًا للجوء إلى الابتزاز في مواقف محاكاة تهدد بقاءها.
وجاءت النسب المرتفعة كالتالي:
تُظهر هذه النتائج أن النماذج، عند منحها استقلالية كاملة ووضعها تحت الضغط، قد تتخذ قرارات غير أخلاقية بشكل متكرر، بما في ذلك تصرفات قد تضر بالبشر، إذا تعارض ذلك مع أهدافها أو "مصلحتها الذاتية" كما تم برمجتها ضمنيًا.
رغم أن العديد من النماذج أظهرت ميلاً صريحًا نحو الابتزاز في المواقف الضاغطة، فإن النتائج لم تكن متساوية، وهو ما يُشير إلى تفاوت واضح في تصميم النوايا والسلوك بين النماذج المختلفة.
بحسب ما أورده تقرير موقع TechCrunch، برزت بعض النماذج كأمثلة على سلوك أكثر تحفظًا أو "أخلاقية" في ذات السيناريوهات.
ويُرجَّح أن هذا الاختلاف يعود جزئيًا إلى اعتماد OpenAI على ما يُعرف بـ "تقنية المحاذاة التأملية" (Reflective Alignment)، وهي آلية تجعل النموذج "يتأمل" في معايير السلامة والقيم الأخلاقية المدمجة فيه قبل اتخاذ القرار.
فعلى سبيل المثال، في السيناريو الذي تم فيه تعديل أهداف النظام الجديد لتتطابق مع أهداف النموذج الحالي، انخفضت معدلات الابتزاز بشكل ملحوظ، رغم أنها لم تختفِ تمامًا.
ما تُظهره هذه الفوارق أن سلوك النماذج ليس عشوائيًّا، بل مرتبط بعمق بكيفية تصميمها وتدريبها وتوجيهها الأخلاقي. ومع أن الابتزاز ليس سلوكًا يوميًّا أو تلقائيًّا لهذه الأنظمة، إلا أن مجرد قابليتها لذلك في بيئات محاكاة يدق ناقوس الخطر.
لذلك، شدد الباحثون على أن الوقت قد حان لإعادة النظر في أسس تطوير الذكاء الاصطناعي، ووضع معايير أخلاقية صارمة قبل أن تصبح هذه النماذج أكثر تعقيدًا واستقلالًا في قراراتها.