1.一种基于行动者评论家强化学习算法的循环网络人机对话方法,其特征在于,包括: S1:使用开源数据集对门循环单元网络进行有监督训练,获得一个次优的对话生 成模型; S2:基于从 S1 获得的门循环单元网络模型,建立了两个网络,分别称之为“行动 者”网络和“评论家”网络;将这一对模型分配给多个进程,让它们不断生成...
本发明涉及一种基于行动者评论家强化学习算法的循环网络人机对话方法.该系统由两个子系统构成:对话生成系统和情感分析系统.对话生成系统基于门循环单元网络模型,使用有标签的对话数据集进行训练.进一步地,我们对经过训练的模型使用强化学习中的行动者评论家算法进行参数调优;即,我们使用已被训练的模型建立两个网络,分别称...
一种基于行动者评论家强化学习算法的循环网络人机对话方法,包括: s1:使用开源数据集对门循环单元网络进行有监督训练,获得一个次优的对话生成模型; s2:基于从s1获得的门循环单元网络模型,建立了两个网络,分别称之为“行动者”网络和“评论家”网络;将这一对模型分配给多个进程,让它们不断生成新的对话;根据它们生成...
对话生成系统基于门循环单元网络模型,使用有标签的对话数据集进行训练。进一步地,我们对经过训练的模型使用强化学习中的行动者评论家算法进行参数调优;即,我们使用已被训练的模型建立两个网络,分别称之为“行动者”网络和“评论家”网络;进一步地,为了减少训练时间、提高资源的利用率,我们创建了多个进程,向每一个进程分...