无监督学习、有监督学习和强化学习是机器学习的三个组成部分,也是训练一个大模型的三个基础阶段。AlphaZ...
像Yi模型,除了分6b,36b,还有4bit,8bit之外,还有base和chat之分。Base就是原始模型,预训练之后没有做任何调整,而chat是做了对齐后的版本,比如更加符合人类的价值观之类的。Chat模型一般而言就是在base上做了微调,比如sft和rlhf。sft是有监督微调,rlhf人工反馈强化学习。#人工智 发布于 2023-12-26 11:38・IP...