alpaca_chinese_dataset 鲁迅说过:有多少人工,才有多少智能 当前的聊天对话模型数据集主要都是由英文构成,但是当前中文聊天模型构建的需求也较为迫切,因此我们将斯坦福的alpaca数据集进行中文翻译,并再制造一些对话数据,并开源提供。 此翻译并非完全的chatgpt机翻,会进行人工校验,遇到英文特异性表达的时候会变为较为中文...
alpaca-chinese-dataset是一个持续更新的中文指令微调数据集,旨在提供丰富多样的中文指令数据,以帮助模型更好地理解和执行指令。该数据集包含了各种日常生活中的指令,涵盖了家庭、工作、学习等多个领域,包括但不限于厨房操作、电子设备使用、应用软件操作等内容。通过这一数据集,我们可以训练模型更准确地理解人类对机器...
alpaca-chinese-dataset alpaca中文指令微调数据集 TODO 每份数据的生成方法待补充 清洗关键词及规则待补充 格式 与原始alpaca数据json格式相同 方法 数据生成 机器翻译 self-instruct 数据清洗 样例 [ {"instruction":"根据给定的坐标确定最近的机场。","input":"40.728157, -73.794853","output":"距给定坐标最近的机...
alpaca_chinese_datasetJe**ff 上传16.89 MB 文件格式 zip alpaca chatglm dataset 人工精调的中文对话数据集和一段chatglm的微调代码 点赞(0) 踩踩(0) 反馈 所需:1 积分 电信网络下载 zzyl-end-nursing 2025-03-22 03:46:41 积分:1 zzyl01 2025-03-22 03:45:54 积分:1 ...
'alpaca-chinese-dataset - alpaca中文指令微调数据集' carbonz GitHub: github.com/carbonz0/alpaca-chinese-dataset #开源##机器学习# û收藏 31 3 ñ29 评论 o p 同时转发到我的微博 按热度 按时间 正在加载,请稍候... 互联网科技博主 3 公司 北京邮电大学 Ü 简介:...
Chinese-Alpaca-2-13B-16K 指令模型 24.7 GB 文件列表 config.json generation_config.json pytorch_model.bin.index.json SHA256.md special_tokens_map.json tokenizer.model tokenizer_config.json pytorch_model-00003-of-00003.bin pytorch_model-00001-of-00003.bin pytorch_model-00002-of-00003.bin config....
此模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,中文Alpaca模型进一步使用了中文指令数据进行精调,显著提升了模型对指令的理解和执行能力。 - 飞桨AI Studio
人工精调的中文对话数据集. Contribute to Misaka152/alpaca_chinese_dataset development by creating an account on GitHub.
"from datasets import load_dataset, DatasetDict # 加载数据用的\n", "from transformers import AutoTokenizer, AutoModel\n", "\n", "# lora已经在peft里面实现了,因此使用peft包即可\n", "from peft import get_peft_model, LoraConfig, TaskType" ] }, { "cell_type": "code", "execution_count...
alpaca-chinese-dataset失夜**ma 上传2.67 MB 文件格式 zip alpaca chatglm llm alpaca中文指令微调数据集 点赞(0) 踩踩(0) 反馈 所需:1 积分 电信网络下载 VolumeManager 2025-03-28 20:55:14 积分:1 EasyIot 2025-03-28 20:46:09 积分:1 ...