TT 的做法则更类似传统的基于模型的强化学习 (model-based RL) 的规划(planning)方法。在建模方面,它将整个序列中的元素都离散化,然后用了 GPT-2 那样的离散的自回归(auto-regressive)方式来建模整个离线数据集。这使得它能够建模任意给定除去 return-to-go 的序列的后续 。因为建模了后续序列的分布,TT 其...
最近这股风潮也影响到了强化学习,尤其是离线强化学习(offline RL),诸如 Decision Transformer (DT)[1], Trajectory Transformer(TT)[2], Gato[3], Diffuser[4]这样的方法,将强化学习的数据(包括状态,动作,奖励和 return-to-go)当成了一串去结构化的序列数据,并将建模这些序列数据作为学习的核心任务。这些模型都...
2021 年年中,Decision Transformer (DT)和 Trajectory Transformer(TT)的发表掀起了 Transformer 在 RL 上应用的新大潮。这两个工作的思路其实很直接:如果 Transformer 和在线强化学习的算法不是很搭,那要不干脆把强化学习当成一个自监督学习的任务?趁着离线强化学习这个概念也很火热,这两个工作都将自己的主要目标任...
Transformer 与强化学习 Transformer 架构 [5] 于 2017 年提出之后慢慢引发了自然语言处理的革命,后续的 BERT 和 GPT-3 逐渐将自监督 + Transformer 这个组合不断推向新的高度,在自然语言处理领域不断涌现出少样本 (few-shot) 学习等性质的同时,也开始向诸如计算机视觉的领域不断扩散[6][7]。 然而对于强化学习...
Trajectory Transformer TT 的做法则更类似传统的基于模型的强化学习 (model-based RL) 的规划(planning)方法。在建模方面,它将整个序列中的元素都离散化,然后用了 GPT-2 那样的离散的自回归(auto-regressive)方式来建模整个离线数据集。这使得它能够建模任意给定除去 return-to-go 的序列的后续 ...
Trajectory Transformer TT 的做法则更类似传统的基于模型的强化学习 (model-based RL) 的规划(planning)方法。在建模方面,它将整个序列中的元素都离散化,然后用了 GPT-2 那样的离散的自回归(auto-regressive)方式来建模整个离线数据集。这使得它能够建模任意给定除去 return-to-go 的序列的后续 ...
Trajectory Transformer TT 的做法则更类似传统的基于模型的强化学习 (model-based RL) 的规划(planning)方法。在建模方面,它将整个序列中的元素都离散化,然后用了 GPT-2 那样的离散的自回归(auto-regressive)方式来建模整个离线数据集。这使得它能够建模任意给定除去 return-to-go 的序列的后续 ...
大规模生成模型在近两年为自然语言处理甚至计算机视觉带来的巨大的突破。最近这股风潮也影响到了强化学习,尤其是离线强化学习(offline RL),诸如 Decision Transformer (DT)[1], Trajectory Transformer(TT)[2], Gato[3], Diffuser[4]这样的方法,将强化学习的数据(包括状态,动作,奖励和 return-to-go)当成了一串去...
大规模生成模型在近两年为自然语言处理甚至计算机视觉带来的巨大的突破。最近这股风潮也影响到了强化学习,尤其是离线强化学习(offline RL),诸如 Decision Transformer (DT)[1], Trajectory Transformer(TT)[2], Gato[3], Diffuser[4]这样的方法,将强化学习的数据(包括状态,动作,奖励和 return-to-go)当成了一串去...