SELF-ALIGN通常指通过模型自身的不断迭代和优化来实现对齐的过程。这种方法充分利用了模型自身的学习能力,通过不断试错和调整来逐步逼近最优解。 结论 WizardLM、BackTranslation与SELF-ALIGN等方案的提出,标志着LLM对齐技术迈入了新的发展阶段。这些方案不仅提升了LLM的指令理解和执行能力,还为后续研究提供了宝贵的思路和...
SELF-ALIGN是一种基于自监督学习的对齐方案。该方案通过对比源语言文本和目标语言文本的嵌入表示,实现对齐的效果。具体来说,SELF-ALIGN利用预训练的语言模型将源语言文本和目标语言文本分别转换为向量表示,然后通过计算两个向量之间的相似度来评估对齐效果。优点: 无需额外的数据或标签,可以直接使用原始文本进行训练。 通...
SELF-REFINE 是较早挖掘 LLM Refine 能力的工作,对于生成的 Response,SELF-REFINE 让 LLM 自己对其进行评论,之后根据评论再对 Response 进行 Refine。 这里Critic 可以由其他 Strong model 生成,之后 LLM 根据该 Critic 进行 Refine。IterAlign 让LLM 通过self-reflection 对自己的 Response 进行 Refine,这里进行 self...
SELF-REFINE 是较早挖掘 LLM Refine 能力的工作,对于生成的 Response,SELF-REFINE 让 LLM 自己对其进行评论,之后根据评论再对 Response 进行 Refine。 这里Critic 可以由其他 Strong model 生成,之后 LLM 根据该 Critic 进行 Refine。IterAlign 让 LLM 通过self-reflection 对自己的 Response 进行 Refine,这里进行 se...
基本是模仿self-align的方法,主要用于中文数据集(24)LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement类似于蒸馏,就是让教师LLM根据学生LLM输出的错误案例造新数据,迭代训练 4.2 数据生成理论/研究 (1)A SCALING LAW FOR SYN2REAL TRANSFER: HOW MUCH IS YOUR PRE-TRAINING EFFECTIVE?本文发现预训练...
有代表性的工作比如 Constitional AI [6] 和 Self-Rewarding [7],前者使用一系列宪法原则作为批评和改进的基础,后者使用LLM-as-a-Judge 能力给每个回答打分,然后将分数高的和分数低的样本组成偏序对进行DPO训练。 LLMs可以有效地进行上下文中学习:即大模型能够在推理过程中利用上下文示例或经验来初始化特定任务的...
同样是改写方案,Self-Align在Self-Instruct的基础上上,通过引入对抗指令样本和3H相关的指令prompt,在SFT阶段就让模型进行偏好对齐。让模型先基于外化的偏好原则生成符合3H原则的回答,再通过SFT对齐把偏好内化到模型参数中,因为指令样本是Base模型自己生成的所以叫Self-Alignment。有些类似自监督,只不过样本特征被人工抽象成...
同样是改写方案,Self-Align在Self-Instruct的基础上上,通过引入对抗指令样本和3H相关的指令prompt,在SFT阶段就让模型进行偏好对齐。让模型先基于外化的偏好原则生成符合3H原则的回答,再通过SFT对齐把偏好内化到模型参数中,因为指令样本是Base模型自己生成的所以叫Self-Alignment。有些类似自监督,只不过样本特征被人工抽象成...
同样是改写方案,Self-Align在Self-Instruct的基础上上,通过引入对抗指令样本和3H相关的指令prompt,在SFT阶段就让模型进行偏好对齐。让模型先基于外化的偏好原则生成符合3H原则的回答,再通过SFT对齐把偏好内化到模型参数中,因为指令样本是Base模型自己生成的所以叫Self-Alignment。有些类似自监督,只不过样本特征被人工抽象成...
LiPO,逐列表偏好优化,参阅论文《LIPO: Listwise preference optimization through learning-to-rank》。RRHF,参阅论文《RRHF: Rank responses to align language models with human feedback without tears》。PRO,偏好排名优化,参阅论文《Preference ranking optimization for human alignment》。负偏好优化 这些研究有...