在Scaling-up中,近几年的benchmarks越来越偏向于加入更多困难的例子,或者给予所谓“权威”来源更多权重,研究员也因此更倾向于优化模型在困难任务上的表现,导致在难度一致性上慢性恶化。 在shaping-up中(如RLHF),被雇佣的人倾向于惩罚那些规避任务的答案,导致模型更容易在面对自己无法解决的难题时“胡说八道”。 至...