最后python代码: importnumpyasnp# R matrixR=np.matrix([[-1,-1,-1,-1,0,-1],[-1,-1,-1,0,-1,100],[-1,-1,-1,0,-1,-1],[-1,0,0,-1,0,-1],[-1,0,0,-1,-1,100],[-1,0,-1,-1,0,100]])# Q matrixQ=np.matrix(np.zeros([6,6]))# Gamma (learning parameter)....