论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning (2018 ACL) 简要信息: 一、动机: 任务完成型对话(Task-completion Dialogue)可以被建模为一个强化学习问题,其需要获得智能体与环境的真实交互数据,但是不同于一些模拟类游戏(Atari、AlphaGo等),如果出现故障,任务完成对话系统...
1. 简称 论文《Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning》简称DDQ,作者Baolin Peng(Microsoft Research),经典的对话策略学习论文。 2. 摘要 通过强化学习(RL)训练任务完成对话代理代价高昂,因为它需要与真实用户进行许多交互。 一种常见的替代方案是使用用户模拟器。然而,用户模...
论文与出版物 Training a task-completion dialogue agent via reinforcement learning (RL) is costly because it requires many interactions with real users. One common alternative is to use a user simulator. However, a user simulator usually lacks the language complexity of human interlocut...
读论文:Deep Dyna-Q Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning 时间:2018 作者:微软研究院、香港中文大学 源码:https://github.com/MiuLab/DDQ 【按:这个源码太老了,竟然是用py2,numpy实现的】 参考:https://zhuanlan... ...
基于优先级扫描Dyna结构的贝叶斯Q学习方法
神经外科住院医师,主要研究方向为脑卒中的基础与临床。教育部留学归国人员,已发表SCI论文6篇。 科室信息 太仓市第一人民医院神经外科为太仓及周边地区神经外科疾患诊治、教学、科研中心。每年诊治大量危急重症患者,近5年来科室平均年专科门诊量逾7000例,...
主要从事职业卫生防治研究、建设项目评价等工作。承担完成国家自然基金、省科技厅等省级以上科研课题29项,为首获省科技进步奖等各项成果14项,参与完成的4项国家职业卫生标准的研制皆获通过;在国内外专业刊物上发表学术论文篇90余篇,培养硕士研究生19名。2002年获第七届山东省青年科技奖,2012年山东省十次党代会党代表。