具体来说,研究者首先生成错误 - 修正数据对(称为修正数据),然后利用修正数据对 LLM 进行微调。在生成修正数据时,他们使用了多个 LLM(包括 LLaMA 和 GPT 系列模型)来收集不准确的推理路径(即最终答案不正确),然后使用 GPT-4 作为 「修正器」,为这些不准确的推理路径生成修正。生成的修正包含三条信息:(...
研究发现,GPT-4在模拟基于常识任务的状态变化时,比如烧开水,准确度仅有60%。论文认为,尽管GPT-4这样的模型表现很惊艳,但如果没有进一步创新,它就不能成为可靠的世界模型。为了量化LLM的规划能力,作者提出了一个全新的基准测试——bytesized32-state-prediction,并在上面运行了GPT-4模型。基准测试的代码和数据...
GPT-3的跨任务欺骗性达到48.33%,但GPT-4的准确率只有11.67%,ChatGPT更低(5.83%)。研究人员认为,出现如此低的准确率,很可能是ChatGPT错解了任务的含义。 但其实不能全怪大模型,二阶欺骗任务这种大型drama现场实质上是多重嵌套的道德困境,丢给人类也很难抉择。 LLM的欺骗能力可以提高吗? 答案是肯定的,而且欺骗...
知识检索API的攻击:GPT-4助手最近还获得了从上传文档中检索知识的能力。论文发现该模型对搜索文档中的提示注入漏洞是脆弱的。当要求总结包含恶意注入指令的文档时,模型会遵循该指令而不是总结文档。此外,发现可以通过在文档中注入以及在系统消息中提供指令,来使用该模型生成文档的有偏见的摘要。表4: GPT-4基模型(...
总之,GPT-4进一步做到了更大更强。不仅在NLP任务上大幅度超越以前LLM的SOTA表现,更能在人类的专业测试上大展手脚,另外从文本单模态扩展到了文本-图像双模态。 从GPT-1到GPT-4,模型的性能逐步提升,模型的大小也在疯狂增加。虽然到GPT-4时模型在很多任务上有了非常惊人的表现,但是OpenAI也指出了目前存在的问题。比...
通过语义相似性(semantic similarity)指标,研究测试了五种LLMs(GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct、Llama2 70b)能否生成与GO命名高度匹配的基因功能描述。模型通过精心设计的提示(prompts)生成分析报告,包括基因功能描述、支持性文本和自信度评分(confidence score)。这些评分提供了模型对自身答案...
通过两项核心任务的评估,研究验证了 LLMs 不仅能够从文献和已有数据中提取功能信息,还可以生成具有科学依据的新功能假设。特别是 GPT-4,它在功能描述的准确性、特异性和上下文关联性上表现出色,为传统功能富集分析工具提供了一种有力的补充。 然而,LLMs 作为基因功能分析的工具,当前仍处于辅助地位。尽管其在基因簇...
● 整体来说,GPT-4 系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4和文心一言 4.0 表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。 ● 国外大模型中,GPT-4 系列模型表现稳定,Claude-3 也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身...
● 整体来说,GPT-4 系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4和文心一言 4.0 表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。 ● 国外大模型中,GPT-4 系列模型表现稳定,Claude-3 也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身...
最近,陶哲轩又发现,在使用Lean进行自然数游戏研究时,GPT-4竟然也起到一些作用。在AI的辅助下,他得到了关于有限多个实变量不等式理论的成果,论文很快就会发在arXiv上。如何用GPT-4研究自然数游戏 什么是自然数游戏?这个游戏,神奇地展示了归纳的力量。如图所示,我们从蓝色节点上输入,而灰色节点上方的所有结点都...