摘要:学习自动机(LA)是一种随机优化技术,其中自动机的目标是从一个允许的动作集里选择最优的动作。现 有LA的动作集大多都是有限集,因此对于连续参数学习问题,需要将动作空间离散化,并且解的精度取决于离散 化的颗粒度。提出一种新的连续动作学习自动机(CALA),其动作集为一个可变区间,并依照均匀分布选择输出动 ...