🎯 研究目标:探索自回归模型在没有视觉信号上的归纳偏差条件下,是否能够通过适当的扩展来实现最先进的图像生成性能。🧱 方法概述:介绍了LlamaGen,这是一种新的图像生成模型家族,将大型语言模型的“下一个token预测”范式应用到视觉生成领域。研究了image tokenizer的设计空间、图像生成模型的scalability properties及其...