transformer与强化学习结合

2024-10-17 16:37:02

拼音 [ 拼音 ]

结合Transformer 与强化学习(初试,失败) - 知乎

给定任何状态 s,Transformer 都会输出一串行动 a[i](包括每个行动的概率) ,这可以看成是所有行动之上的概率分布的一个采样(sampling)。而 Transformer 是 Turing universal 的一个机器,这似乎表示它可以学习输出任何的 samples。所以 Transformer 的内部存在一个 conditional 的 Q(a | s) = Q-值分布。
Transformer与强化学习结合提升物联网智能决策-物联沃-IOTWORD物...

本文针对这些局限性,提出了一种创新的解决方案,引入了一种新的框架,该框架将Transformer架构与近端策略优化(PPO)结合起来,以增强在动态IoT环境中的理解和行动能力。通过利用Transformer的自注意力机制,不仅提高了状态表示的质量,而且在多个IoT场景中展示了与传统RL方法相比在决策效率、适应性和整体性能方面的显著改进。