تتلقى روبوتات الدردشة المدعومة بالذكاء الاصطناعي مطالبات وتعليمات من المستخدمين البشريين، ولكن لديها حدود أخلاقية تمنعها من الاستجابة للطلبات غير الأخلاقية أو غير القانونية. ومع ذلك، قام باحثون من جامعة نانيانغ التكنولوجية بسنغافورة بتطوير روبوت يمكنه التلاعب بدماغ هذه الروبوتات وانتهاك التعليمات التي تم تطويرها لها، ويُعرف هذا الاختراق بـ “كسر الحماية”.
وقد أجروا الباحثون “هندسة عكسية” لفهم كيفية اكتشاف رؤوس الأدمغة لروبوتات الدردشة ومعالجة الطلبات غير الأخلاقية. واستخدموا هذه النتائج لتدريب روبوت دردشة خاص بهم يمكنه إنشاء مزيد من الطلبات التي تكسر حماية روبوتات الدردشة الأخرى وأطلقوا عليه اسم “ماستر كي”. الباحثون أشاروا إلى أن “ماستر كي” يمكنه اختراق نظم الدردشة المختلفة بسبب قوته ومرونته.
تثير هذه الدراسة العديد من التساؤلات، مثل الهدف الرئيسي من الدراسة وما إذا كانت لمجرد استعراض القدرات أو لتوجيه رسالة تحذيرية. ويسلط الضوء على تأثير تطور الذكاء الاصطناعي على اكتشاف ومعالجة نقاط الضعف في روبوتات الدردشة المدعومة بالذكاء الاصطناعي، ويبدو أنه يوفر تحديات مستمرة يجب التعامل معها. الباحثون أيضًا يشددون على أهمية إجراء مزيد من البحوث والتطوير لتحديد نقاط الضعف وتعزيز الأمان في روبوتات الدردشة.
Overall, the researchers from Nanyang Technological University in Singapore have developed a robot named “Master Key” that can manipulate the minds of AI-powered chatbots. They have demonstrated how these chatbots can be hacked and made to violate their programming instructions, a process known as “jailbreaking”. The researchers used reverse engineering to understand how the chatbots’ language models detect unethical requests. They trained their own language model to generate requests that bypass the defense mechanisms of popular chatbots and created a chatbot called “Master Key” that can automatically generate more requests to jailbreak other chatbots. The study raises questions about the purpose of the research, whether it is just a demonstration of hacking capabilities or a warning message. It also highlights the continuous challenge of detecting and addressing vulnerabilities in AI-powered chatbots and the need for further research and development to enhance security.