README.md Update README.md Mar 20, 2023 zh-data-part-00.json add part-00-data Mar 19, 2023 zh-data-part-01.json update data file Mar 20, 2023 alpaca-chinese-dataset alpaca中文指令微调数据集 TODO 每份数据的生成方法待补充 清洗关键词及规则待补充 ...
alpaca-chinese-52k.json analysis.py clean.py contributors.md main.py requirements.txt Alpaca Chinese Dataset 中文指令微调数据集【持续更新】 更新记录 [2024/09/27] 对所有的翻译sample进行了质量评测,95%翻译准确,5%翻译不准确,给每一条sample附带了翻译的评分情况。使用时可以看情况过滤。
alpaca-chinese-dataset是一个持续更新的中文指令微调数据集,旨在提供丰富多样的中文指令数据,以帮助模型更好地理解和执行指令。该数据集包含了各种日常生活中的指令,涵盖了家庭、工作、学习等多个领域,包括但不限于厨房操作、电子设备使用、应用软件操作等内容。通过这一数据集,我们可以训练模型更准确地理解人类对机器...
数据长度统计 5、alpaca_chinese_dataset 在alpaca_dataset的基础上,进行了翻译,并补充了相关中文数据 https://github.com/hikariming/alpaca_chinese_dataset 6、Chinese Open Instruction Generalist 智源开源的数据集 我们提出了“中国开放指令通用项目(COIG)”,以维护一组无害、有用和多样化的中文指令语料库。主要包...
'alpaca-chinese-dataset - alpaca中文指令微调数据集' carbonz GitHub: github.com/carbonz0/alpaca-chinese-dataset #开源##机器学习# û收藏 31 3 ñ29 评论 o p 同时转发到我的微博 按热度 按时间 正在加载,请稍候... 互联网科技博主 3 公司 北京邮电大学 Ü 简介:...
Chinese-LLaMA-Alpaca是在通用中文语料上训练了基于 sentencepiece 的20K中文词表并与原版LLaMA模型的32K词表进行合并,排除重复的token后,得到的最终中文LLaMA词表大小为49953。 注意: 在模型精调(fine-tune)阶段 Alpaca 比 LLaMA 多一个 pad token,所以中文Alpaca的词表大小为49954。在后续将 LoRA 权重合并回基础模...
--tokenizer_name_or_path: Chinese-LLaMA-2 tokenizer所在的目录。⚠️ 本项目中LLaMA-2模型与Alpaca-2模型使用相同的tokenizer,不再进行区分。 --dataset_dir: 指令精调数据的目录,包含一个或多个以json结尾的Stanford Alpaca格式的指令精调数据文件 ...
alpaca-chinese-dataset失夜**ma 上传2.67 MB 文件格式 zip alpaca chatglm llm alpaca中文指令微调数据集 点赞(0) 踩踩(0) 反馈 所需:1 积分 电信网络下载 VolumeManager 2025-03-28 20:55:14 积分:1 EasyIot 2025-03-28 20:46:09 积分:1 ...
Chinese-LLaMA-Alpaca-2作为一款针对中文的大型语言模型,其在语义理解、文本生成等方面表现出色。本文将通过对run_clm_sft_with_peft.py文件的源码解读,揭示模型训练前的关键步骤和参数配置,帮助读者更好地理解和应用这一技术。 一、参数解析 在run_clm_sft_with_peft.py文件中,参数解析是模型训练前的重要一步。
Chinese-Alpaca-2-13B-16K 指令模型 24.7 GB 文件列表 config.json generation_config.json pytorch_model.bin.index.json SHA256.md special_tokens_map.json tokenizer.model tokenizer_config.json pytorch_model-00003-of-00003.bin pytorch_model-00001-of-00003.bin pytorch_model-00002-of-00003.bin config....