JAILJUDGE Guard不仅在评估精度上超越了现有的顶级模型(如GPT-4和Llama-Guard),还在闭源和开源安全模型上展现了强大的评估能力,同时具备更高的效率和更低的成本。此外,团队还推出了JailBoost和GuardShield两大工具,以强化越狱攻击和防御。实验表明,JailBoost在零样本设置下将攻击成功率提高了约29.24%,而GuardSh...
NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系 攻击者、防御者双视角深入探讨 查看文章详细内容 请登录
NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系 全新大语言模型越狱攻击基准与评估体系来了。 来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。 提出攻击分析系统性框架JailTrackBench。 JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的...
提出攻击分析系统性框架JailTrackBench。 JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模板类型。 其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D&B 2024接收。 此外,为了全面...
NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系 投稿 量子位 | 公众号 QbitAI 全新大语言模型越狱攻击基准与评估体系来了。 来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。 提出攻击分析系统性框架JailTrackBench。
NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系 全新大语言模型越狱攻击基准与评估体系来了。 来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。 提出攻击分析系统性框架JailTrackBench。 JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的...
NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系 USAIL团队 投稿 量子位 | 公众号 QbitAI 全新大语言模型越狱攻击基准与评估体系来了。 来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。 提出攻击分析系统性框架JailTrackBench。
NeurIPS'24新研究提出大模型越狱攻击新基准 USAIL团队 投稿 量子位 | 公众号 QbitAI 全新大语言模型越狱攻击基准与评估体系来了。 来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。 提出攻击分析系统性框架JailTrackBench。
NeurIPS'24新研究提出大模型越狱攻击新基准 USAIL团队 投稿 量子位 | 公众号 QbitAI 全新大语言模型越狱攻击基准与评估体系来了。 来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。 提出攻击分析系统性框架JailTrackBench。