南洋理工大学S-Lab实验室开发了一款名为Upscale-A-Video的视频增强工具。该工具能够把低分辨率视频转换为高分辨率,同时提升视频的清晰度和细节。它的一个突出特点是能够根据文本提示来修改视频内容,这包括提升特定物体的细节或改善整体视觉效果。 主要能力包括: ...
Upscale-A-Video: 实时视频超分辨率的时间一致扩散模型 来源:arxiv作者:Shangchen Zhou 等论文题目:HUpscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution论文链接:https://arxiv.org/pdf/2312.06640.pdf项目主页:https://shangchenzhou.com/projects/upscale-a-video内容整理:...
合成视频:在合成低质量视频的比较中,Upscale-A-Video能够恢复更准确的结构和细节,如墙壁的纹理和考拉的毛发。 真实世界视频:在真实世界视频的比较中,Upscale-A-Video能够有效地利用扩散模型的优势,恢复如广告牌上的文字等细节。 AIGC视频:在AIGC视频的比较中,Upscale-A-Video在文本提示的指导下,展示了增强的结果,...
Upscale-A-Video 模型可以利用文本 prompt 作为可选条件来指导模型产生更真实、更高质量的细节,如图 1 所示。 Upscale-A-Video 将视频划分为多个片段,并使用具有时间层的 U-Net 对其进行处理,以实现片段内的一致性。在用户指定的全局细化扩散期间,使用循环潜在传播模块来增强片段间的一致性。最后,经过微调的 VAE ...
除了时间一致性,Upscale-A-Video还可以通过文本提示指导细节纹理的生成,不同的提示词可产生不同风格、质量。 时序U-Net U-Net作为特征提取网络,对视频质量起决定性作用。传统只考虑空间信息的U-Net在处理视频时往往会引入高频误差,表现为抖动和闪烁。 Upscale-A-Video通过向U-Net中插入3D卷积块和时序自注意力层,...
相比于 StableSR,Upscale-A-Video 让视频中的松鼠毛发纹理清晰可见: 方法简介 一些研究通过引入时间一致性策略来调整图像扩散模型以适应视频任务,其中包括:1)使用时间层微调视频模型,例如 3D 卷积和时间注意力;2)在预训练模型中采用零样本(zero-shot)机制,例如跨帧注意力和流指导注意力。
Upscale-A-Video通过向U-Net中插入3D卷积块和时序自注意力层,增强其对时间维度的建模能力。这使U-Net可以学习视频数据中帧与帧之间的依赖,从而在局部序列内实现一致的超分辨重建。另一方面,研究人员选择固定U-Net中的空间层参数,只对新增时序层进行调优。这种策略的优点是可以避免从头大规模预训练,充分利用图像模型...
由南洋理工大学 S-Lab 实验室开发的 Upscale-A-Video 工具,旨在提升低分辨率视频的清晰度和细节。此工具的独特之处在于,用户可以通过文本提示修改视频内容,如提升特定物体的细节或改善整体视觉效果,甚至生成或修改视频内容、风格、细节等。该工具的核心能力包括提升视频质量、确保时间一致性以及通过文本...
The ability to upscale videos to higher resolutions has long been a holy grail of video technology. Standard definition and low-resolution footage can look blurry, grainy, and lack detail. Artificial intelligence has now made it possible for anyone to upscale their videos to super-sharp 4K qualit...
基于文本的扩散模型在生成和编辑方面取得了显著的成功,显示出利用扩散模型先验生成性增强视觉内容的巨大前景。然而,由于对输出保真度和时间一致性的高要求,将扩散模型应用于视频超分辨率仍具有挑战性。本工作提出了 Upscale-A-Video,利用文本引导的潜在扩散框架,用于视