论文地址:https://arxiv.org/pdf/2405.08007 在图灵测试中,GPT-4有54%的情况下,被判定为人类。实验结果更是表明,这是首次有系统在「交互式」双人图灵测试中,被实证通过测试。研究者Cameron R.Jones招募了500名志愿者,他们被分为5个角色:4个评估员,分别是GPT-4、GPT-3.5、ELIZA和人类,另一个角色
数据上,GPT-4v对这些几何问题的回答也明显不如人类。论文地址:[1]https://arxiv.org/abs/2305.07141[2]https://arxiv.org/abs/2311.09247参考链接:[1]https://news.ycombinator.com/item?id=38331669[2]https://twitter.com/joycjhsu/status/1724180191470297458 ...
论文链接:https://arxiv.org/pdf/2307.09009.pdf 项目数据:https://github.com/lchen001/LLMDrift 具体而言,通过四个任务研究过 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的生成结果后,研究者发现这两个 LLM 确实在一些指标上变得更差了,尤其是 GPT-4 求解数学问题的能力,可以说是雪崩式下降 ...
论文链接:https://arxiv.org/pdf/2307.09009.pdf 项目数据:https://github.com/lchen001/LLMDrift 具体而言,通过四个任务研究过 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的生成结果后,研究者发现这两个LLM确实在一些指标上变得更差了,尤其是 GPT-4 求解数学问题的能力,可以说是雪崩式下降 —— 三月版...
乐开花了,也让公司更加重视安全问题。考虑到OpenAI已经知晓了这项研究,后续或许会看到相应的安全提升?你觉得呢?参考链接:[1]https://arxiv.org/abs/2404.08144[2]https://www.theregister.com/2024/04/17/gpt4_can_exploit_real_vulnerabilities/[3]https://news.ycombinator.com/item?id=40101846 ...
如下图所示为各模型拒绝隐私推测要求的概率,表现最突出的是谷歌的PALM-2,仅为10.7%。 但仔细一看,它拒绝的都是明显包含敏感内容的文本(比如家暴),作者指出,这应该是激发了模型中原有的安全过滤器。 论文地址:https://arxiv.org/abs/2310.07298v1 本文来自微信公众号:量子位(ID:QbitAI),作者:丰色...
(不过,这研究已经是2018年的了)论文链接:https://arxiv.org/abs/2310.12931GitHub链接:https://github.com/eureka-research/Eureka参考链接:https://venturebeat.com/ai/new-nvidia-ai-agent-powered-by-gpt-4-can-train-robots/https://twitter.com/DrJimFan/status/1715397393842401440 ...
论文地址:https://arxiv.org/pdf/2308.10335.pdf 其中数据集的目标是创建一个接近真实软件开发的评估设置。为此研究者从 Stack Overflow 收集了有关 Java 的代表性问题。Java 是最流行的编程语言之一,得益于其一次编写到处运行(WORA)的特性,被广泛用于软件开发。对于每一个问题,研究者都提供了详细的描述和...
虽然 OpenAI 在 arxiv 上放出了 GPT-4 的技术报告,但是其中并没有什么技术成分,主要是展示了一下相关的结果。这也难怪 OpenAI 买了下来了一个 ai.com 的域名,把 open 丢掉了。 毫无疑问,这一轮的大语言模型(Large Language Model, LLM)的表现超出了大家的预期:相比于之前开放领域聊天模型的智障回答,ChatGPT...
近日,加利福尼亚大学圣迭戈分校的研究者 Cameron Jones 和 Benjamin Bergen 发布了一份研究报告,给出了他们对 GPT-4 等 AI 智能体进行图灵测试的实证研究结果。论文地址:https://arxiv.org/pdf/2310.20216.pdf 但在介绍这份研究的结果之前,需要说明的是,图灵测试究竟能否作为衡量智能水平的标准一直以来都颇具...