对大型VLM的co-finetuning;能够从Internet-scale training中获益;把action表示成文本tokens,变成multimodal sentences放到训练集中,从而发挥VLM的能力 RT-2 可以表现出类似于VLM的chain-of-thought推理迹象。 具有chain-of-thought推理的 RT-2 能够回答更复杂的命令,因为它首先用自然语言规划其动作的位置。 这是一个很...