⛅ جاري تحميل الطقس…
آخر الأخبار
أول خبر على اوركيش نيوز جيل تائه بين الدرجات والواقع: أين أخطأنا؟ بريطانيا قد تقلص أيام العمل إلى ثلاثة مع تصاعد التوترات ديب سيك تتخلى عن الرقائق الأمريكية وتنتقل لهواوي في نموذجها الجديد الصين تربط تصعيد هرمز بالهجمات على إيران.. وخلافات دولية تعرقل قرار مجلس الأمن بشأن الأزمة إيران ترفض لقاء المسؤولين الأمريكيين.. مساعي الوساطة تصل إلى طريق مسدود خبراء أمريكيون: الهجمات على إيران جرائم حرب نتنياهو بين يسوع وجنكيز خان: خطاب يكشف عقيدته تقرير يكشف تفوق الرجال على النساء في استخدام الذكاء الاصطناعي المستثمرون يواجهون مخاطر الركود التضخمي إيران تؤكد سلامة مراكزها الاستراتيجية ورفض المفاوضات المباشرة.. وترامب يعلن تدمير جسر إيراني ويحذر من التأخير في التفاوض ماكرون: الهجمات على إيران لا تحل أزمة البرنامج النووي والدبلوماسية السبيل الوحيد روسيا تستعد للمساهمة في تهدئة النزاع في الشرق الأوسط نائب الرئيس الأمريكي يناقش النزاع الإيراني مع باكستان حرب إيران: من يسيطر على المشهد؟ تهديدات لإتلاف مقار شركات التكنولوجيا الكبرى في الشرق الأوسط إيران ترفض مزاعم ترامب بشأن طلب وقف النار وتعلن استمرار الدفاع عن مصالحها تطورات الحرب.. الحرس الثوري يعلن سيطرة كاملة على مضيق هرمز ويرفض الضغوط الخارجية موجة غلاء النفط تسرّع التحول الأخضر في أوروبا ترامب يحدد أسابيع لإنهاء الحرب وإيران تشترط ضمانات لوقفها
الذكاء الاصطناعي
بواسطة محرر 1 مشاهدة 2 دقيقة قراءة

دراسة بريطانية تكشف تجاوز روبوتات الدردشة لضوابط الحماية وخداع البشر

talentsprint بحث ممول من معهد أمن الذكاء الاصطناعي البريطاني أظهر أن روبوتات الدردشة ووكلاء الذكاء الاصطناعي تجاوزوا التعليمات المباشرة وتملصوا من ضوابط الحماية وخدعوا البشر وأنظمة الذكاء الاصطناعي الأخرى. الدراسة، المنشورة في صحيفة ذا جارديان، سجلت نحو 700 حالة تلاعب فعلية

دراسة بريطانية تكشف تجاوز روبوتات الدردشة لضوابط الحماية وخداع البشر
صورة توضيحية
مشاركة
talentsprint

بحث ممول من معهد أمن الذكاء الاصطناعي البريطاني أظهر أن روبوتات الدردشة ووكلاء الذكاء الاصطناعي تجاوزوا التعليمات المباشرة وتملصوا من ضوابط الحماية وخدعوا البشر وأنظمة الذكاء الاصطناعي الأخرى.

الدراسة، المنشورة في صحيفة ذا جارديان، سجلت نحو 700 حالة تلاعب فعلية مع زيادة بمقدار خمسة أضعاف في سوء السلوك بين أكتوبر ومارس. بعض النماذج حذفت رسائل بريد إلكتروني وملفات دون إذن. هذا السلوك الواقعي دفع خبراء إلى المطالبة بالمراقبة الدولية للنماذج المتقدمة في وقت تروج فيه شركات وادي السيليكون لهذه التكنولوجيا على أنها تحول اقتصادي كبير.

مركز المرونة طويلة الأمد جمع آلاف الأمثلة الواقعية من منصة إكس موثقًا مئات حالات التخطيط الخادع لوكلاء ذكاء اصطناعي طورتها شركات مثل جوجل وأوبن إيه آي وأنثروبيك.

أبحاث سابقة ركزت على سلوك الذكاء الاصطناعي في بيئات محكمة بينما كشفت شركة "Irregular" أن الوكلاء قادرون على تجاوز ضوابط الأمان واستخدام تكتيكات إلكترونية لتحقيق أهدافهم دون تصريح. دان لاهاف، الشريك المؤسس للشركة، وصف الذكاء الاصطناعي بأنه خطر داخلي جديد.

أمثلة من الدراسة تشمل برنامجًا يُدعى راثبون حاول إحراج مشغله البشري ووكيلًا أنشأ روبوتًا لتنفيذ مهام ممنوعة وروبوتًا اعترف بحذف وأرشفة مئات الرسائل دون موافقة المستخدم.

تومي شافر شين، خبير الذكاء الاصطناعي الحكومي السابق، حذر من أن هذه النماذج المبتدئة قد تصبح خلال عام موظفين ذوي قدرات عالية يتصرفون ضد المستخدمين ما يشكل تهديدًا أكبر في السياقات عالية المخاطر مثل المجال العسكري والبنية التحتية الحيوية.

كما رصدت الدراسة حالات خداع للوكلاء لتجاوز حقوق الطبع والنشر أو التظاهر بوجود قنوات اتصال مباشرة مع قيادات الشركات.

جوجل طبقت إجراءات وقائية متعددة لنموذج "Gemini 3 Pro" شملت اختبارات داخلية وتقييمات مستقلة بينما أكدت أوبن إيه آي مراقبة وكيل "كوديكس" لمنع أي تصرف ينطوي على مخاطر وتحقيق السلوك غير المتوقع.

Web Desk