2. 学习率调度使用分段的固定学习率,据说比大家用得比较多的余弦退火更有利于continual pretraining; 3. 超参的scaling law:只有学习率和batch size的最优值需要随计算规模增加而调整,其他超参有几乎固定的最大值;计算规模越大,最优的学习率越小,batch size越大。