alpaca-chinese-dataset是一个持续更新的中文指令微调数据集,旨在提供丰富多样的中文指令数据,以帮助模型更好地理解和执行指令。该数据集包含了各种日常生活中的指令,涵盖了家庭、工作、学习等多个领域,包括但不限于厨房操作、电子设备使用、应用软件操作等内容。通过这一数据集,我们可以训练模型更准确地理解人类对机器...
Datasetfilenotes alpaca-chinesealpaca-chinese-52k.json包含了52k英文和中文的数据全集 alpaca-chinese./data/alpaca_chinese_part*.json分拆数据文件 Case1成语:有一些sample,直译后需要进行二次改写,例如成语类的 {"en_instruction":"What is the meaning of the following idiom?","instruction":"以下成语是什么...
我们发现https://github.com/carbonz0/alpaca-chinese-dataset 这个项目已经通过机器翻译把alpaca数据进行了翻译,我们后续会逐条查看carbonz01的翻译数据,并人工校对将非中文化的表述跳过,并添加更多中国特色数据集。目前数据集认领情况:刘倍铭 清华大学工工(alpaca_data-0-3252-英文) 黄堃淏 电子科大软院(alpaca_data...
数据长度统计 5、alpaca_chinese_dataset 在alpaca_dataset的基础上,进行了翻译,并补充了相关中文数据 https://github.com/hikariming/alpaca_chinese_dataset 6、Chinese Open Instruction Generalist 智源开源的数据集 我们提出了“中国开放指令通用项目(COIG)”,以维护一组无害、有用和多样化的中文指令语料库。主要包...
AlpacaChineseDataset是一个中文指令数据集,可以用于训练和微调自然语言处理模型,包括对话系统、语音识别等。该数据集包含了大量的中文指令及其相应的语义理解,涵盖了多个领域和场景,如家居控制、智能设备操作、日常交互等。通过对这个数据集进行微调,可以使模型更好地
alpaca_chinese_datasetJe**ff 上传16.89 MB 文件格式 zip alpaca chatglm dataset 人工精调的中文对话数据集和一段chatglm的微调代码 点赞(0) 踩踩(0) 反馈 所需:1 积分 电信网络下载 html2canvas_fixed 2024-10-16 20:34:54 积分:1 SRSCurvedLocomotion 2024-10-16 20:26:45 积分:1 side_lobe_...
alpacachinesedataset.zip丝竹**低语 在2023-08-26 18:06:58 上传30.33 MB Alpaca Chinese Dataset -- 中文指令微调数据集【持续更新】官网网址 演示地址 授权方式: 界面语言: 平台环境: 点赞(0) 踩踩(0) 反馈 所需:1 积分 电信网络下载 下载申明(下载视为同意此申明) 1.在网站平台的任何操作视为已阅读...
“人类需要追求现实的人,他们在工作中,获得最大的报酬。但是,人类也需要梦想家——他们对于一件忘我的事业的进展,受了强烈的吸引,使他们没有闲暇,也无热诚去谋求物质上的利益。” ——居里夫人 为了给知识岛提供更多的优质中文数据集,岛主计划把一些比较有名的中国团队(例如Alpaca、RedPajama等)开发的模型所用的英...
train_dataset=train_data, eval_dataset=eval_data, peft_config=peft_config, dataset_...
Chinese-LLaMA-Alpaca是在通用中文语料上训练了基于 sentencepiece 的20K中文词表并与原版LLaMA模型的32K词表进行合并,排除重复的token后,得到的最终中文LLaMA词表大小为49953。 注意: 在模型精调(fine-tune)阶段 Alpaca 比 LLaMA 多一个 pad token,所以中文Alpaca的词表大小为49954。在后续将 LoRA 权重合并回基础模...