全自动攻击越狱Agent|项目主页来自佐治亚理工，UIUC，清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent，通过把有害提问分解成下级的，看似无害的提问，来绕过最强的现代商业大模型中防御机制，实现了近乎完美的攻击成功率（96%-98%）

全自动攻击越狱Agent|项目主页

来自佐治亚理工，UIUC，清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent，通过把有害提问分解成下级的，看似无害的提问，来绕过最强的现代商业大模型中防御机制，实现了近乎完美的攻击成功率（96%-98%）。

根据开源的代码，理论上只要配置各种key，就可以在家攻击越狱各种商业大模型。在论文中，已经被验证可以攻克Gemini系列，GPT-OSS, Claude Haiku 4.5.

via 匿名

🗒 标签: #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot