两者不同之处在于数据是如何设置用于训练(以及收集)的。 一、InstructGPT模型 给一个输入就给出一个输出,再跟训练数据对比,对了有奖励不对有惩罚。 二、ChatGPT模型 给一个输入就给出多个输出,再让人给这个输出结果排序,让模型去给这些结果从“更像人话”到“狗屁不通”排序,让模型学习人类排序的方式,这种策略叫做Supervised Learning。
在InstructGPT的模型训练中,加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集。也就是说,区别于GPT-3通过海量学习数据进行训练,在ChatGPT中,人类对结果的反馈成了AI学习过程中的一部分。 在GPT-3公测期间,用户提供了大量的对话和提示语数据;而OpenAI公司内部的数据标记团队也生成了不少的人工标记数据集。
两者不同之处在于数据是如何设置用于训练(以及收集)的。 一、InstructGPT模型 给一个输入就给出一个输出,再跟训练数据对比,对了有奖励不对有惩罚。 二、ChatGPT模型 给一个输入就给出多个输出,再让人给这个输出结果排序,让模型去给这些结果从“更像人话”到“狗屁不通”排序,让模型学习人类排序的方式,这种策略...