这是AnimateDiff的核心部分。这个模块通过从视频数据集(如WebVid-10M)中学习合理的运动先验(motion priors),能够在推理时直接插入到personalized T2I模型中,生成流畅的动画,而无需针对特定模型进行调整。在 为了在拓展原本T2I模型的并在时间维度上对Motion进行建模,需要视频数据进行特殊处理。 在原本模型的图像层,将视...
智源视觉团队近期的工作:3D视觉大模型Uni3D在ICLR 2024的评审中获得了688分,被选为Spotlight Presentation。在本文中,作者第一次将3D基础模型成功scale up到了十亿(1B) 级别参数量,并使用一个模型在诸多3D下游应用中取得SOTA结果。代码和各个scale的模型(从6M-1B)均已开源: 论文地址:arxiv.org/abs/2310.0677 代...
探索ICLR‘24 Spotlight中的首个十亿级别3D通用大模型 智源视觉团队近期的工作:3D视觉大模型Uni3D在ICLR 2024的评审中获得了688分,被选为Spotlight Presentation。在本文中,作者第一次将3D基础模型成功scale up到了十亿(1B)级别参数量,并使用一个模型在诸多3D下游应用中取得SOTA结果。代码和各个scale的模型(从6M-1B...
比如就有Meta AI田渊栋团队,四篇接收中还有一篇Spotlight论文H-GAP。 像StreamingLLM之前受到不少关注,它可以在不牺牲生成效果、推理速度的前提下,实现多轮对话共400万个token,22.2倍推理速度提升。上线不到3个月时间内,GitHub项目标星达到5.7k star。 还有研究团队接收结果简直超出预期,三篇接收,其中一篇Oral,一篇Spo...
你还真别说,被ICLR 2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。 它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。 作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。
近日,全球AI和机器学习顶会ICLR 2025公布了论文录取结果。今年大会共接收了11565份投稿,收录率为32.08%,入选Spotlight(聚光灯/特别关注)和Oral Presentation(口头报告)的比例则约为5.1%。ICLR是深度学习领域最重要的会议之一,每年举办一次。接受的论文主题涵盖机器视觉、计算生物学、语音识别、文本理解、游戏和...
近日,全球AI和机器学习顶会 ICLR 2025 公布了论文录取结果。今年大会共接收了11,565份投稿,收录率为32.08%,入选Spotlight(聚光灯/特别关注)和Oral Presentation (口头报告)的比例则约为5.1%。ICLR是深度学习领域最重要的会议之一,每年举办一次。接受的论文主题涵盖机器视觉、计算生物学、语音识别、文本理解、...
来自中国高校和互联网企业的多篇论文被 ICLR 2025 录用,其中不乏Spotlight、Oral。如中国人民大学高瓴人工智能学院有36篇论文被录用;蚂蚁集团有17篇论文被录用,其中1篇为Spotlight。 让人印象深刻的是,由斯坦福大学和香港科技大学学者联合撰写的论文——SCALING IN-THE-WILD TRAINING FOR DIFFUSION- BASED ILLUMINATION ...
近日,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果。今年大会共接收了 11,565 份投稿,收录率为 32.08%,入选 Spotlight(聚光灯 / 特别关注)和 Oral Presentation ( 口头报告 ) 的比例则约为 5.1%。 ICLR 是深度学习领域最重要的会议之一,每年举办一次。接受的论文主题涵盖机器视觉、计算生物学、语音识...
入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定 作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。 能不能有一种通用的图模型—— 它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?