critic_value_history.append(critic_value[0,0])# 将上面 critic 预测的奖励值记录在 critic_value_history 列表中 action=np.random.choice(num_actions,p=np.squeeze(action_probs))# 依据概率分布抽样某个动作,当然了某个动作概率越大越容易被抽中,同时也保留了一定的随机性 action_probs_history.append(tf...