在ACE演示中展示了其工作原理。首先,玩家的语音输入被传递到英伟达的自动语音识别模型,该模型会将语音转换为文本。然后,将文本放入LLM以生成角色的响应。之后,使用文本转语音模型发出文本响应,该模型被传递到动画模型以创建逼真的唇音同步。最后将动态角色渲染到游戏场景中。