DISC-Law-SFT 数据集是由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 于 2023 年构建的高质量监督微调 (Supervised Fine-Tuning, SFT) 数据集,用于训练和提升大型语言模型 (LLMs) 在法律领域的应用能力,包含近 30 万条训练数据。该数据集专为中文法律领域设计,旨在提高模型在法律文本处理、法律推理思维以及司...
本文整理了一批医疗、法律等相关的公开数据集,涉及医疗相关的专业词汇分词、问答和医疗实体识别,以及法律文本分类、情感分析和评价相关的数据集。 资源整理自网络,源地址: https://github.com/OYE93/Chinese-N…
本文介绍了哈工大讯飞联合实验室(HFL)发表在国内重要自然语言处理会议CCL 2019上的一篇论文,提出了一种基于篇章片段抽取的中文法律阅读理解数据集CJRC。该数据集也是SMP2019“中国法研杯”中文法律阅读理解比赛中所使用的数据集,该比赛由中国中文信息学会社会媒体处理专委会(CIPS-SMP)、中国司法大数据研究院主办,科大讯飞...
7月7日消息,一个刚刚发表在 NAACL 上的中文的事实核查数据集 CHEF,论文作者来自清华,剑桥和 UIC 的 Philip Yu 组。据了解,这是国内第一个基于证据的中文事实核查数据集。 CHEF 有以下几个特点: 使用真实世界的声明,同时是中文的,填补...
本文转载自微信公众号:深度学习与NLP 资源整理自网络,源地址:https://github.com/OYE93/Chinese-NLP-Corpus 分词、词性标注 法律文本分类 …
🔥🔥🔥视频简介:本期视频演示了从文本分块到数据集制作,再到微调大模型的全流程详细步骤,并且以法律数据集微调了一个能够回答法律相关问题的大模型。🟢使用多个强大的模型和工具:1️⃣Google-BERT:用于高效的文本分块2️⃣LLaMA 3.1 70B:生成高质量的
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义
汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具...
我们收集了中英文的关于 3-4 万个问题的近 10 万条「人类-ChatGPT 对比」回答语料,涵盖了开放域、计算机科学、金融、医疗、法律、心理等多个领域。这批语料从各个领域,反映了「人类专家和 ChatGPT 在面对同一个问题时会有怎么不同的回答」。相关代码、模型、数据集将于约一周内开源,期待得到大家的反馈,为...
DISC-Law-SFT 数据集是由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 于 2023 年构建的高质量监督微调 (Supervised Fine-Tuning, SFT) 数据集,用于训练和提升大型语言模型 (LLMs) 在法律领域的应用能力,包含近 30 万条训练数据。该数据集专为中文法律领域设计,旨在提高模型在法律文本处理、法律推理思维以及司...