例如当年的炼丹经验,计算机视觉优先使用SGD(with Momentum),NLP(特别是用Transformer)优先使用Adam,现在CV都上transformer了,那么就又切到了AdamW。 除此之外,还有一个learning rate decay的问题,但这个偏经验,并不一定完全solid! 用CIFAR或者ImageNet跑一跑常见的模型,就会发现,最后如果不把learning rate降低下去,loss...
表 4 给出了在 ImageNet 上训练 ResNet18、在 CelebA 上训练扩散模型、在 OGB-arxiv 上训练图卷积网络(GCN)和图注意力网络(GAT)的结果。结果发现 Adam-mini 使用更少的内存便能取得与 AdamW 相当或更好的性能。 留住用户,AIGC如何通过个性化提升转化率? 7月10日,《AIGC体验派》第四期,邀请到火山引擎直...
首先要强调一下,这篇文章,还有facebook那篇Training ImageNet in 1 Hour面向的问题差不多,基本上是超过8个GPU,分布式大规模计算的情景,解决增大batchSize网络模型变差这样问题。不过其中的场景和我们实验室的差别较大,可能其中有很多有用的tricks,但是目前可能还用不上...这里就把两篇论文中感兴趣的points...
例如当年的炼丹经验,计算机视觉优先使用 SGD(with Momentum),NLP(特别是用Transformer)优先使用 Adam,现在 CV 都上 transformer 了,那么就又切到了 AdamW。 除此之外,还有一个 learning rate decay 的问题,但这个偏经验,并不一定完全 solid! 用CIFAR 或者 ImageNet 跑一跑常见的模型,就会发现,最后如果不把 learni...
该团队也在非 LLM 任务评估了 Adam-mini。表 4 给出了在 ImageNet 上训练 ResNet18、在 CelebA 上训练扩散模型、在 OGB-arxiv 上训练图卷积网络(GCN)和图注意力网络(GAT)的结果。结果发现 Adam-mini 使用更少的内存便能取得与 AdamW 相当或更好的性能。