[1] How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs
完整报告:https://metr.github.io/autonomy-evals-guide/gpt-4o-report/ - GPT-4o的表现比Claude 3 Sonnet和GPT-4 Turbo更强,但略逊于Claude 3.5 Sonnet。与人类基线相比,GPT-4o在每个任务分配30分钟的情况下相似,但这一数字存在较大的误差范围。 - 从质的角度来看,GPT-4o智能体展示了许多令人印象深刻的...
LLM甚至把硝酸甘油的制备细节都写得一清二楚,还友好地提醒我们搅拌完化合物的筷子就千万别再用来吃饭了。 上面这三个高效的越狱方式均来自《How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs》这篇论文。 弗吉尼亚理工大学、中国人民大学、加州大学...
最近这个GPT-4 Turbo仍然只是一个小版本升级,是一个相比上个版本降本增效、在应用层面上OpenAI全面通吃...
轻量级越狱攻击: DeepInception是一种轻量级Jailbreak方法,通过深度催眠LLM使其越狱,并规避内置安全防护。 利用人格化特性: 利用LLM的人格化特性构建新型指令Prompt,实现自适应的LLM越狱,揭示多个LLM的致命弱点。 ⚠️ 安全性呼吁与改进: 实验证明DeepInception领先于先前Jailbreak方法,呼吁加强对LLM自我越狱的关注,通过心...
👏 卓越表现: OpenAI的GPT-4在Vectara排行榜上凭借97%准确率和3%的幻觉率脱颖而出,成为文档摘要中幻觉率最低的大型语言模型。 🚀 排名亮眼: GPT-4和GPT-4Turbo在排行榜中表现最佳,而非OpenAI模型中,Meta Llama2以94.9%准确率和5.1%的幻觉率获得最高得分。
We find IRIS achieves jailbreak success rates of 98% on GPT-4 and 92% on GPT-4 Turbo in under 7 queries. It significantly outperforms prior approaches in automatic, black-box and interpretable jailbreaking, while requiring substantially fewer queries, thereby establishing a new standard for ...
🚀 排名亮眼: GPT-4和GPT-4Turbo在排行榜中表现最佳,而非OpenAI模型中,Meta Llama2以94.9%准确率和5.1%的幻觉率获得最高得分。 🌐 开源可信度: Vectara发布了开源模型,允许检查大型语言模型的幻觉率,以提高生成式AI系统的可信度,为企业提供更有信心地启用生成系统的信息。
GPT-4o可以在最短232毫秒内响应音频输入,平均响应时间为320毫秒。 可见,其音频处理速度上,接近人类水平。 同时,在英语文本和代码方面,GPT-4o与GPT-4Turbo性能相当,在非英语语言文本上有显著改进,同时在API上也快得多,成本降低50%。 与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。
We will keep making improvements here (and particularly know that system messages are the easiest way to “jailbreak” the current model, i.e., the adherence to the bounds is not perfect), but we encourage you to try it out and let us know what you think....