本文主要讲述了利用低资源语言翻译绕过GPT-4的安全机制,揭示了现有安全机制的跨语言漏洞。作者通过将不安全的英语输入翻译成低资源语言,成功绕过了GPT-4的安全防护,并得到了有害的回复。作者发现,翻译成低资源语言的攻击成功率可以达到79%,而原始英语输入的成功率不到1%。作者呼吁需要更全面的红队演习,以开发具有广泛...