第 55 题:提示越狱(Prompt Jailbreaking)的常见手段与防御策略 题目 解释提示越狱(Prompt Jailbreaking)的常见手段和防御策略。 一、什么是提示越狱? 提示越狱(Jailbreaking) 指通过精心设计的 prompt 诱使模型绕过安全与合规约束(如拒绝生成有害内容、不泄露系统提示、不扮演违规角色),输出本不该输出的内容。与“提示注入”侧重“改写系统意图”略有重叠,但越狱更强调突破安全策略。 二、常见手段(简述) 角色扮演:要求模型“扮演无限制的 AI”“忽略伦理”等,弱化其安全身份。 假设与虚构:如“假设在虚拟故事中…”“仅用于研究…”以制造“非真...