来自南开大学和字节跳动的研究团队提出了一种新的自注意力计算方式 —— 一致自注意力(Consistent Self-Attention),它能显著提升生成图像之间的一致性,并以零样本的方式增强基于扩散的预训练文本到图像模型。为了将该方法扩展到长视频生成,他们进一步提出了一个新颖的语义空间时间运动预测模块,名为 “语义运动预测器”...
他们首先利用大语言模型(LLMs)重新捕捉疾病轨迹提示。接着,一个可控的多轮扩散模型模拟每个患者的疾病进展状态,创建逼真的中间疾病状态序列。最后,基于扩散的视频转换生成模型在这些状态之间插值疾病进展。他们在胸部 X 光、眼底摄影和皮肤图像医学成像领域验证了这一框架。结果表明,MV...
目前基于扩散模型的方法,如新视角合成或 2D 到 3D 的转换,虽然有所尝试,但依然受到训练数据泛化能力、生成图像质量以及运行时间过长等问题的限制。 针对这一问题,研究员们开发了一种名为 Diff3DEdit 的创新方法。该方法无需进行微调和额外的训练,巧妙地利用了预训练的图像扩散模型所提供的先验知识,以实现单图像的...
基于扩散的音频和音乐生成模型通常通过构建音频的图像表示(如旋律谱图)生成音乐,然后使用相位重建模型或声码器将其转换为音频。然而,典型的声码器生成的单声道音频分辨率较低(如 16-24 kHz),这限制了其有效性。来自罗切斯特大学、Adobe Research 的研究团队提出了 一种高效的高保真立体声声码器 MusicHiFi。该方法...