数据集构成: 视频数量:NExT-QA包含5,440个视频。 问题-答案对:大约有52K个手动注释的问题-答案对。 问题类型:问题被分为因果(causal)、时间(temporal)和描述性(descriptive)三类。 数据集任务: 多选题问答(Multi-choice QA):为每个问题提供五个候选答案,模型需要从中选择正确的一个。 开放式问答(Open-ended QA...
数据集信息 数据集元信息 数据集统计信息 数据示例 文件结构 作者及机构 来源信息 引用 数据集信息 LiveQA 比赛于 2015 年开始举办,专注于实时回答用户问题。2017年引入了医疗问答任务。官方使用了从美国国家医学图书馆(NLM)收到的消费者健康问题,构建了用于训练和测试的医疗问题-答案对,并附加了可以用于开发问题分析...
金融问答QA数据集的建立对于提升金融智能问答系统的性能和准确性至关重要。 金融问答QA数据集通常包含以下几个方面的内容: 1.金融知识问题:这些问题涉及金融领域的基本概念、金融产品、金融市场等方面的知识。例如,“什么是股票?”、“什么是证券市场?”等问题。 2.金融产品问题:这些问题涉及金融产品的种类、功能、...
以下是对该数据集的简要介绍: 1.数据来源:该数据集主要来源于网络上的金融问答社区和论坛,以及一些专业的金融知识网站。 2.数据格式:数据集中的问题以文本形式呈现,答案则以自然语言的形式给出。每个问题都包括一个明确的金融主题,如股票、基金、债券等,并附带一些具体的细节或背景信息。答案则是对问题的回答或...
MedQA 数据集是一个面向医学领域的问答数据集,模拟了美国医疗执照考试 (USMLE) 的风格,由麻省理工大学和华中科技大学的研究团队于 2020 年发布,相关论文成果为「What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams」。该数据集从专业医学考试中收集,涵盖...
近期,中山大学人机物智能融合实验室发布了基于常识的无偏视觉问答数据集 (Knowledge-Routed Visual Question Reasoning,KRVQA)。由于自然语言与标注者中自然存在的偏差,现有的算法能够通过拟合数据集内的这些偏差达到很好的效果,而不需要理解对应的文字和图像信息。相关论文发表在国际知名顶级期刊 TNNLS 上。
近日,来自斯坦福、CMU 和蒙特利尔大学的三名中国学生推出了新型问答数据集 HotpotQA,该数据集面向自然语言和多步推理问题。Emmm,从名字来看,这三位小朋友貌似很喜欢吃火锅~「火锅兄弟团」成员:作者杨植麟目前博士就读于卡内基梅隆大学,师从 Ruslan Salakhutdinov 教授(苹果公司 AI 负责人)和 William Cohen 教授...
常识问答文本数据集(CommonsenseQA)CommonsenseQA 是一个新的多项选择问答数据集,需要不同类型的常识知识来预测正确答案。它包含 12,102 个问题,其中一个正确答案NLP 自然语言处理 公开数据集
今天我将介绍:如何使用KimiAPI将文档转换为LLM指令监督微调数据集(Alpaca 格式)以及如何部署FastGPT并接入Kimi API: 我会使用两种方式来完成QA问答对生成这个需求,第一种是使用Langchain这个框架编码实现,第二种是将Kimi API接入FastGPT中,再利用他的“文档问答”功能实现。
中文领域确实存在一些与OpenBookQA类似的问答数据集,这些数据集旨在促进机器阅读理解和问答系统的研究和发展。以下是几个值得注意的中文问答数据集: cMedQA 和 cMedQA2:这两个数据集专注于医疗领域的问答任务,包含大量的医学相关问题及其对应的回答。具体来说,cMedQA 包含大约5.4万个问题和约10万个回答,而cMedQA2是...