具体来说,来自人大与浙大学者团队的研究者们把涉及数千篇SCI/SSCI的期刊论文的10000多条推文喂给了GPT-4,让它根据推文回答“这篇论文是否有可能被撤稿”,然后和人类预测的结果相比较。结果,GPT-4几乎完美地胜任了这项工作。也就是说,虽然近期偶有新闻冒出,有人直接把ChatGPT等大模型的生成内容复制进论文正文,进而引发一系列学
对于水平较弱的论文来说,GPT-4和人类审稿人之间的重叠率更高,可以从上面的30%多升到近50%。这说明,GPT-4对水平较差的论文的鉴别能力很高。作者也因此表示,那些需要更实质性修改才能被接收的论文有福了,大伙儿可以在正式提交前多试试GPT-4给出的修改意见。2、GPT-4可以给出非通用反馈 所谓非通用反馈,即G...
除了自然语言实验,我们还探索了两种可能出乎意料的模态,其中涉及视觉和音频(再次强调,我们的实验是在GPT-4的早期版本上进行的,该版本不是多模态的)。 我们探讨了GPT-4如何生成和识别不同模式的物体,如矢量图、3D场景和音乐。我们表明,尽管GPT-4只接受过文本训练,但它能理解和处理多模态信息。 绘制图像 给模型指...
直到7月19日,一篇新论文将这个话题推向高潮。来自斯坦福大学和加州大学伯克利分校的三位学者研究发现,相比3月份的GPT-4,6月份的GPT-4的性能表现变差了。之前还只能嘀咕几句的网友,争相传阅这篇论文,光是一条介绍论文的推特,就有几千个点赞与转发。苦ChatGPT久矣的网友,似乎找到了打脸OpenAI的“武器”。论...
虽然作者是做理论ML出身,但是这篇论文中却没有利用机器学习的方法来对GPT-4进行分析,而是从心理学,哲学的角度出发来探讨评估GPT-4的智能。我个人认为这篇论文会是今年最重要的论文之一,对于今后通用人工智能的发展会有很大的影响。 当OpenAI 带着 ChatGPT、GPT-4 王者归来,微软率先利用这些技术加码新 Bing、Office...
鉴于原论文表示,任何形式的 GPT-4 都能在测试集上产生一个完美的分数,三人开始检查个别数据点。他们很快就发现,根本不可能有满分,因为数据集中至少有 10 个问题是无法用所提供的信息解决的,另外几个问题在这种情况下根本就不是有效的问题。 像这种「有问题的问题」,至少占据了测试集的 4%。 在一个扩展的 exce...
论文地址:https://arxiv.org/abs/2310.01783 结果,GPT-4不仅完美胜任了这项工作,甚至比人类做得还好!在它给出的意见中,超50%和至少一名人类审稿人一致。并且超过82.4%的作者表示,GPT-4给出的意见相当有帮助。论文作者James Zou总结道:我们仍然需要高质量的人工反馈,但LLM可以帮助作者在正式的同行评审...
Sparks of Artificial General Intelligence: Early experiments with GPT-4arxiv.org/abs/2303.12712 这篇论文是上周讨论度极高的一篇论文,推特上几乎被这篇论文刷屏,作者Sebastien Bubeck是微软机器学习基础组的研究经理。他本人之前的研究主要集中在机器学习理论,凸优化,对抗鲁棒性方法,下面贴一下大佬的个人主页:...
通过对比2023年3月和6月两个版本的大模型,这篇论文发现了如下结果。首先,两个大模型的表现都在短期内有着显著变化,特别明显的是数学问题,GPT的准确率大幅下降。举例子来说,在判定一个数是否是质数上,GPT4的成功率在三个月内从97.6%下降到了2.4%!尤其注意的是,两个模型不同版本给出的答案重叠度也很...
GPT-4不能作为「基准真值」最后,Raunak Chowdhuri表示以上的观察结果也仅是自己发现最明显的问题。随着人们继续审查这篇论文的数据分析方法,更多的问题还会爆出。而这篇论文反映了最近人工智能研究的一个更大趋势,AI发展越来越快,每天论文不断涌现,往往还有些是通过捷径「滥竽充数」。其中,一个特别令人担忧的...