来自南开大学和字节跳动的研究团队提出了一种新的自注意力计算方式 —— 一致自注意力(Consistent Self-Attention),它能显著提升生成图像之间的一致性,并以零样本的方式增强基于扩散的预训练文本到图像模型。为了将该方法扩展到长视频生成,他们进一步提出了一个新颖的语义空间时间运动预测模块,名为 “语义运动预测器”...