最近在做大语言模型自我提升的工作,也陆陆续续读了一些论文,整体感觉self-improve这个主题下的工作,从motivation story到具体方法再到下游任务和评价指标都还是比较分散的,用语指代也比较混杂,很容易读着读着就懵了。基于此原因,准备后续简单写一些LLM Self-Improvement相关的博客,主要目的是记录梳理看过的一些paper和一...
基于Linux 平台的开源 LLM 环境配置指南,针对不同模型要求提供不同的详细环境配置步骤; 针对国内外主流开源 LLM 的部署使用教程,包括 LLaMA、ChatGLM、InternLM 等; 开源LLM 的部署应用指导,包括命令行调用、在线 Demo 部署、LangChain 框架集成等; 开源LLM 的全量微调、高效微调方法,包括分布式全量微调、LoRA、p...
大模型(LLM)狭义上指基于深度学习算法进行训练的自然语言处理(NLP)模型,主要应用于自然语言理解和生成等领域,广义上还包括机器视觉(CV)大模型、多模态大模型和科学计算大模型等。 百模大战正值火热,开源 LLM 层出不穷。如今国内外已经涌现了众多优秀开源 LLM,国外如 LLaMA、Alpaca,国内如 ChatGLM、BaiChuan、...
LLM Self-Verification简称LLM自我验证或者自验证,其内涵为LLM本身对其产生的输出进行验证,判断是否输出正确。通常在使用时包含两个步骤: 步骤1:LLM基于提示词输出提取的信息 步骤2:判断提取的结果是否正确。 因此在整个过程中LLM被使用了两次。 例如一个步骤2的例子如下: 4.LLM Self-Verification的局限性 当前使用两...
面对快速生成的新知识,大模型存储的预训练知识往往具有滞后性。为了能够让大模型具备最新的知识,当前主要方法是对新的知识文档进行持续预训练,然而LLM在文档中提取知识时,往往会面临困难。 为此,本文提出了SELFTUNING学习框架,可让LLM通过自学的方式从文档中获取最新的知识,实验结果表明:SELF-TUNING 在所有知识获取任务中...
Self-rewarding-reasoning-LLM使用交流:该项目旨在训练一种能够自我奖励推理的大型语言模型,使模型在推理过程中能够自主评估输出的正确性,而无需依赖外部反馈。通过结合强化学习技术,模型能够显著提升推理能力和自我修正能力,最终准确率提升最高可达14.2%。 Self-rewarding-reasoning-LLM的特点: 1. 通过自我奖励机制,模型推...
所以这两条的可能技术路线中,都很少有人类监督的信号(HF)所以称作标准的 RL 链路是没有任何问题的。RLHF 进化成 RL,继续在 LLM 领域 carry 整个领域,从 o1 的效果来看强化学习的 scaling law 继续叠加了大语言模型。那么 o1 发布博客里面所说的 RL ...
随着人工智能技术的飞速发展,大型语言模型(LLM)已成为推动自然语言处理(NLP)领域进步的重要力量。然而,如何让LLM更好地理解和遵循人类指令,即LLM对齐问题,仍是当前研究的热点和难点。本文将以简明扼要的方式,解析Microsoft提出的WizardLM、Meta的BackTranslation以及SELF-ALIGN等前沿方案,探讨它们在LLM对齐中的实际应用和显...
首先是我们赋能模型,如果说LLM是大脑,那Agent提供了手脚和感官 感官:获取真实世界的信息,包括实时信息像天气情况,金融市场,交通状况;包括私有信息例如用户个人数据;包括多模态信息像声音和图像 手脚:获得和真实世界交互的能力,例如运行python脚本,调用搜索引擎,预定机票酒店。
尽管近期取得了一些进展,将自博弈应用于 LLM 仍处于探索阶段。自我博弈面另一个挑战是其在现实具身场景中无法直接应用。其迭代特性需要大量的试验和错误,很难直接在真实环境中完成。因此,通常只能在仿真器中进行自博弈训练,再将自博弈有效部署到现实具身场景中,关键问题仍在于克服 Sim2Real 差距。