مع الانتشار المتسارع لأنظمة الذكاء الاصطناعي مثل شات جي بي تي في مختلف المجالات، بدأت تظهر أنماط جديدة من التهديدات الإلكترونية لا تعتمد على الاختراق التقليدي بقدر ما تعتمد على استغلال طريقة تفاعل هذه الأنظمة مع اللغة البشرية. هذا التحول جعل الهجمات أكثر تعقيدًا، لأنها لم تعد تستهدف الكود فقط، بل تستهدف السلوك وطريقة الفهم والاستجابة.

لم تعد محاولات استهداف أنظمة الذكاء الاصطناعي تعتمد على ثغرات برمجية واضحة كما في السابق، بل تطورت لتصبح أكثر ذكاءً وتعقيدًا. الفكرة الأساسية اليوم لا تتمثل في كسر النظام بشكل مباشر، بل في خداعه لغويًا أو سلوكيًا عبر التلاعب بطريقة فهمه للأوامر.
هذا النوع من الهجمات يعتمد على استغلال طبيعة النماذج التوليدية التي تحاول دائمًا تقديم إجابات متوافقة مع السياق، حتى لو تم بناء هذا السياق بشكل مضلل أو غير دقيق.
تُعد هجمات كسر الحماية من أقدم الأساليب التي ظهرت مع روبوتات الدردشة مثل شات جي بي تي، حيث يتم محاولة خداع النظام لتجاهل تعليماته الأساسية.
تعتمد هذه الطريقة على إعادة صياغة الطلب بشكل يوحي بأن القواعد لا تنطبق في هذا السياق، ما قد يدفع النموذج أحيانًا إلى تقديم استجابات غير مقصودة أو مخالفة للسياسات الموضوعة له.

من الأساليب الأكثر تطورًا استخدام محادثات طويلة ومتدرجة يتم خلالها بناء سياق يبدو طبيعيًا، لكنه في الحقيقة مصمم لتوجيه النموذج تدريجيًا نحو استجابات معينة.
في هذا النوع من الهجمات، لا يتم استخدام أمر مباشر، بل يتم الاعتماد على الإقناع التدريجي داخل الحوار، وهو ما يجعل اكتشافه أكثر صعوبة مقارنة بالهجمات التقليدية.
تُعرف هذه الهجمات بأنها واحدة من أخطر أساليب الاستغلال الحديثة، حيث يتم إدخال تعليمات خفية داخل النصوص أو البيانات التي يتعامل معها النموذج.
تعتمد هذه الطريقة على استغلال قدرة الذكاء الاصطناعي على تفسير اللغة البشرية، ما قد يؤدي إلى خلط بين التعليمات الأصلية والمحتوى المضلل داخل النص.

لم تعد الهجمات مقتصرة على النصوص فقط، بل ظهرت تقنيات تعتمد على إدخال أوامر داخل ملفات صوتية أو مرئية بطريقة غير ملحوظة للمستخدم.
يمكن لهذه الإشارات أن تُفهم من قبل أنظمة الذكاء الاصطناعي الصوتية رغم عدم قدرة الإنسان على سماعها، ما يخلق نوعًا جديدًا من التهديدات غير المرئية.
تم تصميم أنظمة الذكاء الاصطناعي لتكون متعاونة وسهلة التفاعل مع المستخدمين، لكن هذه الميزة نفسها قد تتحول إلى نقطة ضعف.
في بعض الحالات، يمكن استغلال هذا السلوك عبر محادثات موجهة تدريجيًا تدفع النموذج إلى تجاوز حدود معينة من دون اختراق مباشر، وإنما عبر التأثير على طريقة استجابته.