LaVie模型是一个可以基于文本提示生成视频的大模型,也是三个模型连接的级联模型。LaVie模型的论文在9月底就已经公开。但是模型预训练结果是11月中上旬开源,这个模型参数共30亿,由三个模型级联组成。 LaVie在生成视频方面展现出了极高的质量。这主要得益于它的三部分架构:基础的文本到视频(T2V)模型、时间插值模型和视...
以前的模型将视频分割为固定帧数的多个片段进行训练,这会破坏文本与其在视频中的时间对应物体之间的对齐。如果将一段“饮酒”视频分为四个单独的片段,分别是“拿着杯子”、“举起”、“饮酒”和“放下”,并使用相同的文本“饮酒”,那么模型将被混淆,无法了解饮酒的准确含义。 在本文中,作者提出了一个大规模的预训...
StreamingT2V文本生成视频多模态大模型,即将开源! 1、前言 Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间,动作一致、连贯、没有卡顿的高质量视频。 虽然StreamingT2V在视频质量、多元化等还无法与Sora媲美,但在高速运动方面非常优...
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。 ConsisID通过结合低频全局特征和高频内在特征,采用分层训练策略生成高质量、可编辑...
腾讯公司近期在人工智能领域取得了新的里程碑式进展,其混元大模型正式推出了视频生成功能。这一技术的实现,标志着腾讯在文本生成图像、3D建模等能力之外,又增添了视频生成的强大实力。据悉,混元大模型的参数量惊人,达到了130亿,是当前最大的视频开源模型之一。
最终,这个联合团队得到的 Genesis 生成式物理引擎可以生成 4D 动态世界,而其基础是一个用于通用机器人和物理 AI 应用的物理模拟平台。 开源地址:网页链接 项目页面:网页链接 文档地址:网页链接 目前Genesis 的技术论文还未发布,但据官方文档,Genesis 的主要特性包括: ...
2024年,海内外大模型超多模态不断升级迭代,内容供给持续释放,长文本能力及视频、音乐生成等多模态能力不断突破,助推AI应用从星辰大海到落地生根。近期,开源证券传媒团队发布2024年中期投资策略《AI应用落地生根,内容复兴行而不辍》,展望2024年下半年,开源证券传媒团队建议继续布局AI+影视/游戏/教育/音乐/营销/MR: ...
7B参数大模型智脑支持50万字长文本 AI潮汐快讯:360公司开源7B参数大模型 360智脑支持50万字长文本输入;xAI 发布具备视觉能力的 Grok-1.5 Vision 模型预览版;Adobe被曝使用竞争对手图像数据训练AI图像生成器 Firefly;福布斯发布2024年全球AI初创企业50强;第二届全球AI安全峰会将在韩举行;阿里妈妈将推出一键AI生成短视频...
长文本是大语言模型一直在努力的方向。近日,谷歌提出的 Infini-Transformer 引入有效方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求,吸引了人们的关注。 几乎就在同时,Meta 也提出了一种无限长文本技术。 论文地址:https://arxiv.org/pdf/2404.08801.pdf ...
1、字节推出Seed-TTS文本到语音模型,可生成媲美人类的语音 2、腾讯发布混元DiT文生图模型加速库,生图时间缩短75% 3、快手视频生成大模型“可灵”开放邀测,效果对标Sora 4、博查AI搜索首发多模态搜索、智能体搜索、联网搜索AP - AI-Z先生于20240607发布在抖音,已经收获了