文中首先提出了一种基于标签分布学习的特征工程方法,通过对历史行为的分析和构造,通过标签分布学习为用户和产品构建特征向量;然后,提出一种基于值分布强化学习的推荐算法。首先设计了推荐过程的随机过程,描述了用户在交互过程中的状态(通过包含其显式状态和隐式状态的信息),并通过用户反馈动态生成产品推荐;其次,通过研究...