在机器人和具身智能领域,VLA、LLM和VLM各自代表不同的概念: 1. VLA (Vision Language Action): 这是一种多模态机器学习模型,它结合了视觉、语言和动作三种能力,旨在实现从感知输入直接映射到机器人控制动作的完整闭环能力。VLA模型被开发用于解决具身智能中的指令跟随任务,它需要理解语言指令、视觉感知环境并生成适当...
大型语言模型(LLM)、视觉-语言模型(VLM)和视觉基础模型(VFM)是处理和理解不同类型数据的先进人工智能系统。以下是对每个模型的概述: 大型语言模型(LLM): LLM是旨在理解和生成自然语言的人工智能模型。它…
端到端模型,和VLM/VLA/LLM模型的输入和输出不同,模型的结构不同,模型的参数不同,本质上有很大区别。目前VLM/LLM有两种用法,意识输出结果再输入到端到端模型里,辅助输出轨迹。第二种用法就是让LLM作为主模型来输出轨迹,我们改变输入。
@@ -40,13 +40,30 @@ LLM 的微调一般指指令微调过程。所谓指令微调,是说我们使 40 40 41 41 ```json 42 42 { 43 - "instruction": "现在你要扮演皇帝身边的女人--甄嬛", 43 + "instruction": "", 44 44 "input":"你是谁?", 45 45 "output":"家父是大理寺少卿甄远道。" 46 46...