Q(S2, A3) = 0 Q(S3, A1) = 0 Q(S3, A2) = 3 Q(S3, A3) = 0 Q(S4, A1) = 0 Q(S4, A2) = 0 Q(S4, A3) = 4 然后我们根据更新公式来计算每个状态的每个动作的Q值。例如,假设我们当前在状态S1,并且选择了动作A1,那么下一步的状态S'可以是S2、S3或S4。假设下一步选择了状态S2,那么...