论文地址:https://arxiv.org/abs/2408.08189项目主页:https://fancyvideo.github.io/代码仓库:https://github.com/360CVGroup/FancyVideo论文标题:FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance 跨帧文本引导模块 作者在进行视频生成研究过程中,发现现有的文本到...
项目主页:https://nvlabs.github.io/Sana/ 论文地址:https://arxiv.org/abs / 2410.10629 Sana 的核心设计包含了以下几个要素: 深度压缩自编码器(AE):传统自编码器只能将图像压缩 8 倍,全新 AE 可将图像压缩 32 倍,有效减少了潜在 token 的数量。 线性DiT(Diffusion Transformer):用「线性注意力」替换了 Di...
低精度计算 在我的工作中,我之前已经证明新数据类型可以提高低精度在反向传播过程中的稳定性 (https://arxiv.org/abs/1511.04561)。 图4:低精度深度学习 8 位数据类型。深度学习训练受益于高度专业化的数据类型。 但使用 BF16 精度,训练可能比使用 FP16 精度更稳定,同时提供相同的加速。使用 TF32 精度,你可以...
该论文介绍了一种名为 ReMax 的新算法,专为基于人类反馈的强化学习(RLHF)而设计。ReMax 在计算效率(约减少 50% 的 GPU 内存和 2 倍的训练速度提升)和实现简易性(6 行代码)上超越了最常用的算法 PPO,且性能没有损失。论文链接:https://arxiv.org/abs/2310.10505 作者:李子牛,许天,张雨舜,俞扬...
然而,很少有研究人员或从业者认为他们有能力训练大型语言模型(LLM),通常只有行业内的科技巨头拥有训练 LLM 的资源。为了扭转这一趋势,来自马里兰大学的研究者进行了一番探索。论文《Cramming: Training a Language Model on a Single GPU in One Day》:论文链接:https://arxiv.org/abs/2212.14034 这个问题...
论文链接:https://arxiv.org/abs/2212.14034 这个问题对于大多数研究人员和从业者来说具有重要意义,因为这将成为模型训练成本的参考,并有望打破 LLM 训练成本超高的瓶颈。该研究的论文迅速在推特上引发关注和讨论。 IBM 的 NLP 研究专家 Leshem Choshen 在推特上评价道:「这篇论文总结了所有你能想到的大模型训练 ...
论文链接:https://arxiv.org/abs/2212.14034 这个问题对于大多数研究人员和从业者来说具有重要意义,因为这将成为模型训练成本的参考,并有望打破 LLM 训练成本超高的瓶颈。该研究的论文迅速在推特上引发关注和讨论。 IBM 的 NLP 研究专家 Leshem Choshen 在推特上评价道:「这篇论文总结了所有你能想到的大模型训练 ...
作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用 3D 全注意力机制来进行时空联合建模。CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下:代码仓库:https://github.com/THUDM/CogVideo模型下载:https://huggingface.co/THUDM/CogVideoX-5b论文链接:https://arxiv.org/pdf/2408.06072 ...
https://arxiv.org/abs/1511.04561)。 图4:低精度深度学习 8 位数据类型。深度学习训练受益于高度专业化的数据类型。 但使用 BF16 精度,训练可能比使用 FP16 精度更稳定,同时提供相同的加速。使用 TF32 精度,你可以获得接近 FP32 的稳定性,同时提供接近 FP16 的加速。另外要使用这些数据类型,只需要将 FP32...
论文地址:https://arxiv.org/pdf/2311.03687.pdf 具体来说,该研究首先在三个 8-GPU 上对不同规模(7B、13B 和 70B 参数)的 LLM,面向预训练、微调、服务进行端到端的性能基准测试,涉及具有或不具有单独优化技术的平台,包括 ZeRO、量化、重新计算、FlashAttention。然后,该研究进一步提供了子模块的详细运行...