给定任何状态 s,Transformer 都会输出 一串行动 a[i](包括每个行动的概率) ,这可以看成是 所有行动之上的概率分布 的一个采样(sampling)。而 Transformer 是 Turing universal 的一个机器,这似乎表示它可以学习 输出任何的 samples。 所以 Transformer 的内部 存在一个 conditional 的 Q(a | s) = Q-值分布。
本文针对这些局限性,提出了一种创新的解决方案,引入了一种新的框架,该框架将Transformer架构与近端策略优化(PPO)结合起来,以增强在动态IoT环境中的理解和行动能力。通过利用Transformer的自注意力机制,不仅提高了状态表示的质量,而且在多个IoT场景中展示了与传统RL方法相比在决策效率、适应性和整体性能方面的显著改进。