下载链接:https://github.com/cooelf/DeepUtteranceAggregation 京东对话挑战赛 下载链接:https://github.com/SimonJYang/JDDC-Baseline-Seq2Seq 情感对话 清华黄民烈老师组贡献的ESConv数据集,应该是共情对话领域少有的数据集了,包含1300组多轮对话,每组对话还涉及情感类别、对话策略、评分等信息 paper链接:https://d...
SMILECHAT 是通过大模型(GPT-3.5 turbo)构建的合成对话数据集,旨在为心理健康支持领域提供大规模、多样化的多轮对话数据。该数据集由西湖大学和浙大联合提出,见论文:《 SMILE: Single-turn to Multi-turn Inc…
突出中文是因为之前的大规模开源多轮对话数据集MultiWOZ是英文的。MultiWOZ在推动英文多轮对话诞生了很多研究。因此这次清华大学计算机系制作了中文的数据集以填补中文任务导向对话数据的空白。 论文地址:https://arxiv.org/pdf/2002.11893.pdf 数据集介绍 数据集参数 CrossWOZ包含 6K 个对话,102K 个句子,涉及 5 个领...
4.指示标注人员从起始实体开始对话,并鼓励他们将对话的话题转移到其他实体; 5.过滤掉低质量的对话,例如包含语法错误、对话内容与知识事实不一致等,以保证对话数据的质量。 c) 统计指标 三个领域各自收集了1500个对话,数据集按照8:1:1切分为训练集、开发集和测试集。从对话的轮次数与对话所涉及的话题数来看,电影...
80万条中文ChatGPT多轮对话数据集 喜爱 2 80万条中文ChatGPT多轮对话数据集:BelleGroup/multiturn_chat_0.8M 木 木洋 3枚 CC0 自然语言处理 0 13 2023-11-26 详情 相关项目 评论(0) 创建项目 数据集介绍 H1 H2 H3 H4 H5 H6 ``` import json import numpy as np from tqdm import tqdm import re ...
为了更好地满足人们的需求,构建一个完善的旅游中文多轮对话数据集变得至关重要。这样的数据集可以帮助人们更快速、更方便地获取各种旅游信息,提升他们的旅行体验。 1. 数据集构建背景 随着旅游行业的不断发展,人们对旅游信息获取的方式也在不断变化。传统的旅游查询方式已经无法满足人们的需求,需要更智能、更便捷的...
清华ACL2020长文|KdConv:多领域知识驱动的中文多轮对话数据集展开收起 暂无标签 /hedgehogli/KdConv Apache-2.0 保存更改 取消 发行版 暂无发行版 贡献者(1) 全部 近期动态 接近5年前创建了仓库 不能加载更多了 马建仓 AI 助手 尝试更多 代码解读 代码找茬 ...
知识驱动的对话系统,由于缺少包含多话题的、带有知识标注的多轮对话数据集,在很大程度上会受到限制。 针对这一问题,清华大学交互式人工智能(CoAI)组周昊等人在发表于 ACL 2020 的论文《 KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation 》中,提出了一个中文多领域知...
数据和代码地址:https://github.com/thu-coai/KdConv 由于包含知识标注的多轮对话数据集的缺乏,知识驱动对话系统的研究在很大程度上受到了限制。 为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏,我们提出了一个中文的多领域的知识驱动的对话数据集KdConv (Knowledge-driven Conversation),其使用知识...
简介 课程标签: 机器学习 深度学习 自然语言处理 查看课程 课时列表 第课时 : ACL 2020丨【清华CoAI系列】KdConv: 知识驱动的中文多轮对话数据集关于我们联系我们意见反馈讲师招募 Powered By EduSoho 课程内容版权均归 深圳英鹏图灵科技有限公司 所有 | 粤ICP备11095991号 关注我们,随时掌握AI好课 ...