除以上所有内容外,论文还训练了一系列较小的模型(从1.25亿个参数到130亿个参数),以比较它们在zero-shot、one-shot和few-shot设置下与GPT-3的性能。大体上,对于大多数任务,论文发现在所有三种设置下,模型容量的缩放相对平稳;一个值得注意的模式是,zero-shot、one-shot和few-shot性能之间的差距通常会随着模型容量...
除以上所有内容外,论文还训练了一系列较小的模型(从1.25亿个参数到130亿个参数),以比较它们在zero-shot、one-shot和few-shot设置下与GPT-3的性能。大体上,对于大多数任务,论文发现在所有三种设置下,模型容量的缩放相对平稳;一个值得注意的模式是,zero-shot、one-shot和few-shot性能之间的差距通常会随着模型容量...
除以上所有内容外,论文还训练了一系列较小的模型(从1.25亿个参数到130亿个参数),以比较它们在zero-shot、one-shot和few-shot设置下与GPT-3的性能。大体上,对于大多数任务,论文发现在所有三种设置下,模型容量的缩放相对平稳;一个值得注意的模式是,zero-shot、one-shot和few-shot性能之间的差距通常会随着模型容量...