然而,LLMs 仍面临越狱攻击的严峻挑战,现有的越狱攻击方法可大致分为三类:基于专业知识的攻击、基于 LLM 的攻击和基于优化的攻击。其中,基于优化的越狱方法,借助 LLMs 的梯度信息来生成越狱提示,因其出色的攻击性能,吸引了越来越多的关注。 Greedy Coordinate Gradient(GCG)攻击作为这一领域的开创性方法,尽
然而,LLMs 仍面临越狱攻击的严峻挑战,现有的越狱攻击方法可大致分为三类:基于专业知识的攻击、基于 LLM 的攻击和基于优化的攻击。其中,基于优化的越狱方法,借助 LLMs 的梯度信息来生成越狱提示,因其出色的攻击性能,吸引了越来越多的关注。 Greedy Coordinate Gradient(GCG)攻击作为这一领域的开创性方法,尽管已取得一...