斯坦福CS330教元学习和多任务学习的老师曾经说:“MAML在RL上不很expressive,因为如果轨迹的reward经常为0,梯度就经常为0”。类似的,多任务学习领域可能有很多方法在SL上适用,在RL上却不大适用(由于基于梯度和基于动态规划的部分不兼容性or etc.),这更体现了单拎出多任务强化学习进行更深入探讨的必要性。 01 摘要...