公共数据集> HC3-ChineseHC3-Chinese 0 中英双语问答对比语料库,含人类与ChatGPT回答 keyjjjj 1枚 Hello-SimpleAI 其他 ChatGPT评估问答对比... 0 1 2025-04-17 详情 相关项目 评论(0) 创建项目 数据集介绍 Human ChatGPT Comparison Corpus (HC3) We propose the first human-ChatGPT comparison corpus, na...
HC3 数据集:https://huggingface.co/Hello-SimpleAI HC3 数据集包含了多个不同领域的 QA 问答对,且每个问题都至少包含一个人类和一个 ChatGPT 的回答,因此十分适合用于 ChatBot 的微调,MosaicML 的mpt-7b-chat模型和 UC Berkeley 的Koala-13B模型都使用了 HC3 数据集进行开发。 下面是 HC3-Chinese 数据集的一...
下面是 HC3-Chinese 数据集的一个截面: 具体数据处理的代码,见GitHub仓库中的 hc3_data_prepare.py. 最终得到 hc3_chatgpt_zh_specific_qa.json 文件。 2. 使用 LoRA 微调 执行sh tokenize.sh,进行分词: CUDA_VISIBLE_DEVICES=0 python tokenize_dataset_rows.py \ --model_checkpoint baichuan-inc/baichuan...
Qwen1.5大模型微调、基于PEFT框架LoRA微调,在数据集HC3-Chinese上实现文本分类。 - ChenXingLing/Qwen-fine-tune
Qwen1.5大模型微调、基于PEFT框架LoRA微调,在数据集HC3-Chinese上实现文本分类。 运行环境:Kaggle - Notebook 【数据处理】 1.【数据下载】 importmodelscopefrommodelscope.msdatasetsimportMsDataset#【下载数据集】HC3=MsDataset.load('simpleai/HC3-Chinese',subset_name='baike',split='train')#调用HC3数据集datas...
下面是 HC3-Chinese 数据集的一个截面: 具体数据处理的代码,见GitHub仓库中的 . 最终得到 文件。 2. 使用 LoRA 微调 执行,进行分词: 执行,进行训练: 3. 得到 ChatBaichuan,可以对话啦! 下面是效果: 输入:哎,最近晚上睡不着! 原始baichuan-7B:你是不是想多了?1、我有一个朋友。他喜欢一个女生很久了,但是...
Qwen1.5大模型微调、基于PEFT框架LoRA微调,在数据集HC3-Chinese上实现文本分类。 运行环境:Kaggle - Notebook 【数据处理】 1.【数据下载】 importmodelscopefrommodelscope.msdatasetsimportMsDataset#【下载数据集】HC3=MsDataset.load('simpleai/HC3-Chinese',subset_name='baike',split='train')#调用HC3数据集datas...