أعادت دراسة حديثة نشرها باحثون في دورية علمية متخصصة الجدل حول قدرة الذكاء الاصطناعي على محاكاة البشر، بعدما أظهرت النتائج أن بعض نماذج اللغة الكبيرة باتت قادرة على إقناع المشاركين بأنها بشر حقيقيون خلال محادثات قصيرة.
ويعيد هذا التطور إحياء اختبار آلان تورينغ الشهير، لكن في سياق جديد يرتبط بتطور نماذج الذكاء الاصطناعي التوليدي، وقدرتها المتزايدة على تقليد السلوك البشري في التواصل اليومي.

ركزت الدراسة الجديدة على اختبار قدرة نماذج الذكاء الاصطناعي الحديثة على الظهور بمظهر البشر أثناء المحادثات النصية، بدلًا من الاكتفاء بقياس قدرتها على الإجابة عن الأسئلة.
واعتمد الباحثون على نسخة مطورة من اختبار تورينغ، حيث أجرى المشاركون محادثات متزامنة مع طرفين عبر واجهة نصية، أحدهما إنسان حقيقي والآخر نموذج ذكاء اصطناعي، قبل أن يُطلب منهم تحديد الطرف البشري بعد انتهاء الحوار.
شملت الدراسة نحو 500 مشارك من طلاب جامعة كاليفورنيا في سان دييغو ومستخدمين عبر منصة Prolific، حيث استمرت المحادثات لمدة 5 دقائق في أغلب التجارب، فيما امتدت بعض الجلسات إلى 15 دقيقة.
واختبر الباحثون عدة نماذج ذكاء اصطناعي، من بينها GPT-4.5 وLLaMa 3.1 405B، إلى جانب نماذج أقدم للمقارنة.

أظهرت النتائج أن نموذج GPT-4.5 اختير على أنه الإنسان الحقيقي في 73% من الحالات عندما حصل على تعليمات لتقمص شخصية بشرية محددة.
كما سجل نموذج LLaMa 3.1 405B نسبة بلغت 56%، وهي نتيجة اعتبرها الباحثون قريبة جدًا من الأداء البشري من الناحية الإحصائية.
أكدت الدراسة أن نجاح النماذج لم يعتمد فقط على امتلاكها معلومات واسعة، بل على قدرتها على محاكاة السلوك الاجتماعي البشري، مثل: استخدام الدعابة، والتردد الطبيعي، والإجابات غير الكاملة أحيانًا.
وعندما أزيلت التعليمات الخاصة بتقمص الشخصية البشرية، تراجعت نسب النجاح بشكل واضح، ما يشير إلى أن التوجيه السلوكي لعب دورًا أساسًا في جعل المحادثات تبدو أكثر إنسانية.
رغم النتائج اللافتة، شدد الباحثون على أن الدراسة لا تثبت امتلاك نماذج الذكاء الاصطناعي وعيًا حقيقيًا أو فهمًا عميقًا للعالم كما لدى البشر.
وأوضحوا أن قدرة النموذج على إقناع المستخدم بأنه إنسان لا تعني بالضرورة أنه يفكر أو يشعر، بل تعكس تطورًا كبيرًا في تقليد أنماط التفاعل البشري داخل المحادثات النصية.
وأعادت الدراسة طرح تساؤلات حول معنى اختبار تورينغ في عصر الذكاء الاصطناعي الحديث، إذ لم يعد الاختبار يقيس الذكاء فقط، بل أصبح أقرب إلى تقييم مدى قدرة الأنظمة على تقليد السلوك البشري اجتماعيًا.
تثير هذه النتائج تساؤلات واسعة حول الثقة في الفضاء الرقمي، خاصة مع تزايد قدرة الأنظمة الذكية على تقليد البشر بشكل يصعب اكتشافه.
ويرى الباحثون أن هذه التقنيات قد تُستخدم في مجالات مفيدة مثل التعليم وخدمة العملاء والمساعدات الرقمية، لكنها قد تُستغل أيضًا في عمليات الاحتيال أو التلاعب أو حملات التضليل الإلكتروني.
وأكدت الدراسة ضرورة وضع قواعد أوضح للإفصاح عن استخدام الذكاء الاصطناعي، إلى جانب تطوير أدوات تساعد المستخدمين على التمييز بين البشر والأنظمة الآلية أثناء التفاعل الرقمي.
واختتم الباحثون نتائجهم بالتأكيد على أن الحدود بين المحادثة البشرية والمحادثة الاصطناعية أصبحت أقل وضوحًا من أي وقت مضى، وهو ما يفرض تحديات جديدة تتعلق بالثقة والهوية في العالم الرقمي.