在系统架构方面,Genie 2采用了自回归潜变量扩散模型设计。它首先通过自动编码器处理输入图像,然后利用解码器基于用户操作创建3D环境。在推理时,Genie 2 可以以自回归的方式进行采样,逐帧获取单个动作和先前的潜变量帧。它还使用了无分类器指导(classifier-free guidance)来提高动作的可控性。这种架构允许系统在保持...
输入下面Imagen 3生成的第三开放世界探索游戏图,Genie 2可生成一个带有两扇门(一扇是红门,一扇是蓝门)的3D环境。然后向SIMA agent提出打开某扇门的指令,Genie 2则能生成符合要求的画面。在这个示例中,SIMA通过键盘和鼠标输入控制角色,而Genie 2生成游戏帧。也可以使用SIMA来帮助评估Genie 2的功能。通过指示S...
在Genie 2的物理效果模拟中,实时光影变化是一项引人入胜的功能。它能够实时地模拟光线在3D场景中的动态变化,包括阴影的投射、光线的反射以及光影的明暗过渡等。这些变化不仅使场景更加生动逼真,还增强了用户的沉浸感,仿佛让用户身临其境地感受光影的变幻与场景的活力。场景记忆与智能体交互 Genie 2不仅擅长模拟实时...
Genie 2,这一由Google DeepMind于12月5日凌晨在官网发布的最新大型基础世界模型,标志着人工智能在虚拟世界生成领域的又一重大突破。作为年初推出的Genie模型的升级版,Genie 2不仅能通过单张图片和文字描述生成多样且可玩的3D世界,更在行动控制、长视界记忆、长视频生成、NPC以及物理模拟等多个方面展现出显著的效果与...
Genie 2: 单图一键生成3D可玩世界 DeepMind 的上一代基础世界模型 Genie 于今年 2 月发布,当时仅专注于生成 2D 世界,玩家互动也受限于帧率,体验相对简单。而 Genie 2 则将能力扩展至多样化的 3D 游戏环境,在交互时长和复杂性上都有了大幅跃升。它能够模拟虚拟世界中诸如跳跃和游泳等多种行为结果。基于大...
DeepMind宣称,Genie 2能够生成“丰富多样的3D世界”,用户可通过鼠标或键盘在这些世界中自由跳跃、游泳等。经过视频训练,该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”(非玩家角色)的行为。DeepMind 发布的演示视频,就生动展示了用户与Genie 2的互动过程。首先,系统使用Imagen 3根据...
IT之家 12 月 5 日消息,谷歌旗下人工智能研究机构 DeepMind 发布了一款名为 Genie 2 的新型模型,可通过单张图片和文字描述生成“无限”种类的可玩 3D 世界。作为今年初推出的 Genie 模型的升级版,Genie 2 标志着人工智能在虚拟世界生成领域的一次重大突破。Genie 2 能够根据用户输入的文本描述和图像,实时生成...
12月5日凌晨,就在OpenAI宣布将于未来12天连续进行12场发布会直播时,Google DeepMind同时在官网发布了大型基础世界模型Genie 2,可通过单张图片和文字描述生成种类多样的可玩3D世界。作为今年初推出的 Genie 模型的升级版,Genie 2标志着人工智能在虚拟世界生成领域的又一次突破。DeepMind透露,Genie 2具备从不同视角(...
Genie 2的核心在于其能够生成720p高清分辨率的3D环境,让用户沉浸在逼真的虚拟世界中。不仅如此,你还可以选择以第一人称或第三人称视角来探索这个由自己创造的空间,仿佛置身于电影场景之中。这种从二维到三维的飞跃,不仅提升了视觉体验,也极大地丰富了用户的互动方式。为了让虚拟世界更加生动,Genie 2引入了先进的...