监督学习和非监督学习得到的是而强化学习得到的是

2025-02-27 04:40:23

拼音 [ 拼音 ]

...Language Model,LLM)中,无监督学习、有监督学习和强化学习是...

无监督学习、有监督学习和强化学习是机器学习的三个组成部分，也是训练一个大模型的三个基础阶段。AlphaZ...
...和rlhf。sft是有监督微调,rlhf人工反馈强化学习。#人工智 - 知乎

像Yi模型,除了分6b,36b,还有4bit,8bit之外,还有base和chat之分。Base就是原始模型,预训练之后没有做任何调整,而chat是做了对齐后的版本,比如更加符合人类的价值观之类的。Chat模型一般而言就是在base上做了微调,比如sft和rlhf。sft是有监督微调,rlhf人工反馈强化学习。#人工智发布于 2023-12-26 11:38・IP...