2.2.2 self-instruction 创建 生成新的提示:论文使用固定模型 Llama2-Chat 70B few-shot方法(8-shot)生成新的提示xi,方法为:从原始种子IFT数据中抽取提示,遵循 Self-instruct方法 (注意保证指令多样性) 生成候选回应:然后我们使用采样从我们的模型中为给定提示xi生成N个多样化的候选回应{y_i^1,...,y_i^N}。
受到self-instruct启发,除了通用LLM还能做垂直领域的小LLM实现定制效果,通过GPT获得question和answer来作为训练数据, 其中的重点在于根据自己的垂直领域问题来编写prompt,在config.py配置中。 tips:有问题欢迎提issue 一、流程示意图 为了简化和易复现,本项目没有下图的过滤步骤,当然理想情况下有是比较好的,可以选用simcse...
使用拒绝抽样方法找到好的批评可以比直接改进而没有批评的基准方法获得更大的改进。对于这两种改进方法,改进程度与模型规模呈正相关,小型模型没有改进。 4. 提出并测量【生成-鉴别-批评】模型之间的差距:研究团队提出了一种新的方法来比较模型生成答案的能力、鉴别答案质量的能力和批评答案的能力。使用这种方法,他们研...
+经过 DPO 后,MiniCPM 在当前最接近用户体感的评测集 MTBench上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。 +以 MiniCPM-2B 为基础构建端侧多模态大模型 MiniCPM-V,整体性能在同规模模型中实现最佳,超越基于 Phi-2 构建的现有...