训练结果:视频编码器,将视频变成特征,用于分类视频行为 训练方法:特征空间的 MAE,mask -> encoder -> mask 的特征,未 mask -> encoder -> 未 mask 的特征,学习 predictor:未 mask 的特征 预测出 mask 的特征。关键点: mask 部分的 gt 提取特征的模型使用 EMA(指数移动平均)的模型提取特征,防止坍塌 推理方...
最近OpenAI 又放了个大招——Sora,生成视频的质量大幅提高,简直牛爆了!这个 Sora 的技术报告呢,我们改天来分享,这里讲一个 Meta 的视频理解大模型。(哈哈,主打一个牛头不对马嘴) 原文传送门 Meta. Revisiting Feature Prediction for Learning Visual Representations from Video, 2024 内容 我们前面讲过 MAE 的图...
由于V-JEPA采用自监督学习方法,因此完全使用未标记的数据进行预训练。标签仅用于在预训练后使模型适应特...
知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、
3D conv的权重是哪里来的? 后文提到x-encoder和predictor都是ViT, 那么这个3D Conv指的是ViT? 根据具体code中的实现逻辑来看, 这个3Dconv层在x-encoder的前面, 在pre-train的过程中应该和ViT一起进行update. Training objective The predictor network Pφ(·), which maps therepresentation of x to the repres...
探索视频生成的未来:V-JEPA与Sora模型的比较分析 1. 引言在当今数字化时代,视频内容的创造和消费已经成为我们日常生活的重要组成部分。视频生成技术,作为人工智能领域的一个重要分支,正逐渐改变我们制作和体验…
x编码器是JEPA进程的主要组成部分。x编码器负责对输入x进行编码。输入是我们刚刚看到的上下文块。编码器的结果被传递给预测器。 预测者 预测器获取x编码器的输出,以预测特征,或者换句话说,为了预测目标块(如猫腿)中信息的表示。预测器如何知道要预测哪些特征?这基于输入z,它指导预测器要预测什么。在实践中,z提供...
打开知乎App 在「我的页」右上角打开扫一扫 其他扫码方式:微信 下载知乎App 开通机构号 无障碍模式 验证码登录 密码登录 中国+86 获取短信验证码 获取语音验证码 登录/注册 其他方式登录 未注册手机验证后自动登录,注册即代表同意《知乎协议》《隐私保护指引》 扫码下载知乎 App 关闭二维码...
Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。 Sora一经面世,瞬间成为顶流,话题热度只增不减。 强大的逼真视频生成能力,让许多人纷纷惊呼「现实不存在了」。 甚至,OpenAI技术报告中透露,Sora能够深刻地理解运动中的物理世界,堪称为真正的「世界模型」。
讲座PPT:知乎无法展示 当前自回归LLM的问题 当前的AI在很多地方做的都不够好: Learning how to world works (not just from text) World models. Common sense Memory, Reasoning, Hierarchical Planning 我们期望的高级机器智能(Advanced Machine Intelligence)是什么: ...