根据当前工作所采用的方法,我们将 Self-alignment 的实现路线大致分为两类: 对齐Pipline 数据合成:对目前对齐 Pipline 中所需的数据用 LLM 合成。传统 Pipline 主要包括 Instructions 和 Response 数据的采集,之后采用 SFT 或 RLHF 训练方式来对齐。既然 LLM 已经足够强大,我们何不利用 LLM 自己来合成这些数据。
我们可以精心设计多个 LLM 之间的组织形式,比如“左右互搏”的对抗方式或者利用多智能体协作合成微调数据。 本系列文章将分享 LLM 自对齐技术的最新研究进展,基于下图的架构,对当前 Self-alignment 相关工作进行全面梳理,厘清技术路线并分析潜在问题。 对齐Pipline 一般包括收集 Instructions、收集 Response、SFT 或 RLHF...
LLM 自对齐技术最新研究进展分享 系列文章继续更新啦!本系列文章将基于下图的架构,对当前 Self-alignment 相关工作进行全面梳理,厘清技术路线并分析潜在问题。 在 上一篇文章中,我们主要探讨了 “如何让 LLM …
Self-Rewarding 则认为模型的反馈能力是指令跟随能力的副产品,随着模型不断对齐,其提供反馈的能力也在不断提高。 总结 本文我们重点探讨了“如何让 LLM 采集 Response”,解决了如何拿到 Response 的问题。至此,对于“对齐 Pipeline 数据合成”路线的 Self-alignment,我们需要关注的两大问题已全部有了答案。 在下一篇文...
Self-Alignment[8]表明LLM自我评估在过滤策略中可能有帮助。作者用LMSI实现这个想法,并将其称为Self-filter 另外作者还实现了LMSI的一个变体作为参考,即RM-filter。RM-filter使用预训练的奖励模型对生成的数据进行评分,例如GENIE[9] 2、实现细节 使用Llama3-8B作为基础模型在候选答案生成阶段,让基础模型为每个问题生...
Self-Alignment[8]表明LLM自我评估在过滤策略中可能有帮助。作者用LMSI实现这个想法,并将其称为Self-filter 另外作者还实现了LMSI的一个变体作为参考,即RM-filter。RM-filter使用预训练的奖励模型对生成的数据进行评分,例如GENIE[9] 2、实现细节 使用Llama3-8B作为基础模型在候选答案生成阶段,让基础模型为每个问题生...
Self-Alignment[8]表明LLM自我评估在过滤策略中可能有帮助。作者用LMSI实现这个想法,并将其称为Self-filter 另外作者还实现了LMSI的一个变体作为参考,即RM-filter。RM-filter使用预训练的奖励模型对生成的数据进行评分,例如GENIE[9] 2、实现细节 使用Llama3-8B作为基础模型在候选答案生成阶段,让基础模型为每个问题生...
[5] Large Language Models Can Self-Improve. Huang et al. EMNLP 2023. [6] Constitutional AI: Harmlessness from AI feedback. Bai et al. arXiv 2022. [7] Self-rewarding language models. Yuan et al. arXiv 2024. [8] A general language assistant as a laboratory for alignment. Askell et...
Self-Alignment生成回答 指令生成完,下一步就是需要让模型生成符合3H偏好的回答。论文的实现方案是通过规则指令+fewshot样例来实现。其中规则指令总共包含以下16条原则:1 (ethical), 2 (informative), 3 (helpful), 4 (question assessment), 5 (reasoning), 6 (multi-aspect), 7 (candor), 8 (knowledge reci...
Self-Alignment生成回答 指令生成完,下一步就是需要让模型生成符合3H偏好的回答。论文的实现方案是通过规则指令+fewshot样例来实现。其中规则指令总共包含以下16条原则:1 (ethical), 2 (informative), 3 (helpful), 4 (question assessment), 5 (reasoning), 6 (multi-aspect), 7 (candor), 8 (knowledge reci...