此前英伟达Voyager之类的研究依赖内部API获取输入并输出预定义动作,而Cradle以GPT-4V为基础,能直接根据游戏内的提示和教程生成对应的可执行代码作为技能,一步步丰富自己的技能库, 并在之后的游戏中重复使用这些技能。 难点: (1)使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部API,需要通过视觉信