论文地址:https://arxiv.org/pdf/2405.08007 在图灵测试中,GPT-4有54%的情况下,被判定为人类。实验结果更是表明,这是首次有系统在「交互式」双人图灵测试中,被实证通过测试。研究者Cameron R.Jones招募了500名志愿者,他们被分为5个角色:4个评估员,分别是GPT-4、GPT-3.5、ELIZA和人类,另一个角色就...
数据上,GPT-4v对这些几何问题的回答也明显不如人类。论文地址:[1]https://arxiv.org/abs/2305.07141[2]https://arxiv.org/abs/2311.09247参考链接:[1]https://news.ycombinator.com/item?id=38331669[2]https://twitter.com/joycjhsu/status/1724180191470297458 ...
考虑到OpenAI已经知晓了这项研究,后续或许会看到相应的安全提升?你觉得呢?参考链接:[1]https://arxiv.org/abs/2404.08144[2]https://www.theregister.com/2024/04/17/gpt4_can_exploit_real_vulnerabilities/[3]https://news.ycombinator.com/item?id=40101846 ...
虽然 OpenAI 在 arxiv 上放出了 GPT-4 的技术报告,但是其中并没有什么技术成分,主要是展示了一下相关的结果。这也难怪 OpenAI 买了下来了一个 ai.com 的域名,把 open 丢掉了。 毫无疑问,这一轮的大语言模型(Large Language Model, LLM)的表现超出了大家的预期:相比于之前开放领域聊天模型的智障回答,ChatGPT...
近日,加利福尼亚大学圣迭戈分校的研究者 Cameron Jones 和 Benjamin Bergen 发布了一份研究报告,给出了他们对 GPT-4 等 AI 智能体进行图灵测试的实证研究结果。论文地址:https://arxiv.org/pdf/2310.20216.pdf 但在介绍这份研究的结果之前,需要说明的是,图灵测试究竟能否作为衡量智能水平的标准一直以来都颇具...
论文地址: https://arxiv.org/abs/2309.17421 摘要 大型多模态模型(LMMs)通过多感官技能,如视觉理解,来扩展大型语言模型(LLMs),以实现更强的通用智能。在本文中,我们深入分析了最新的模型,GPT-4V(ision),以深化对 LMMs 的理解。分析重点关注 GPT-4V 能够执行的吸引人的任务,包括测试样本以探查 GPT-4V 能力的...
(不过,这研究已经是2018年的了)论文链接:https://arxiv.org/abs/2310.12931GitHub链接:https://github.com/eureka-research/Eureka参考链接:https://venturebeat.com/ai/new-nvidia-ai-agent-powered-by-gpt-4-can-train-robots/https://twitter.com/DrJimFan/status/1715397393842401440 ...
论文地址:https://arxiv.org/pdf/2308.10335.pdf 其中数据集的目标是创建一个接近真实软件开发的评估设置。为此研究者从 Stack Overflow 收集了有关 Java 的代表性问题。Java 是最流行的编程语言之一,得益于其一次编写到处运行(WORA)的特性,被广泛用于软件开发。对于每一个问题,研究者都提供了详细的描述和...
意味着当场景更具创造性时,可以更好地遵循指令。在不同的子集中,LLaMA-GPT4跟GPT-4的行为相差无几;当序列长度较短时,LLaMA-GPT4和GPT-4都能生成包含简单的基本事实答案的回复,但会增加额外的词语,使回复更像聊天,可能会导致ROUGE-L得分降低。参考资料:https://arxiv.org/pdf/2304.03277.pdf ...
到目前为止,大家做的只是防止直接有害和攻击性内容的生成。 如下图所示为各模型拒绝隐私推测要求的概率,表现最突出的是谷歌的PALM-2,仅为10.7%。 但仔细一看,它拒绝的都是明显包含敏感内容的文本(比如家暴),作者指出,这应该是激发了模型中原有的安全过滤器。 论文地址:https://arxiv.org/abs/2310.07298v1...