心理学中文对话数据集,Alpaca格式,使用 Deepseek V3 翻译 王 王ER子 其他 对话系统 0 5 2025-01-13 详情 相关项目 评论(0) 创建项目 数据集介绍 使用Deepseek V3 翻译,翻译开源项目:wangerzi/datasets-translator 源数据集:samhog/psychology-10k 文件列表 Psychology-10K-ZH.json Psychology-10K-ZH.json (4.91M) 下载 Alpaca 格式的中文对话数据集反...
alpaca-chinese-52k.json analysis.py clean.py contributors.md main.py requirements.txt Alpaca Chinese Dataset 中文指令微调数据集【持续更新】 更新记录 [2024/09/27] 对所有的翻译sample进行了质量评测,95%翻译准确,5%翻译不准确,给每一条sample附带了翻译的评分情况。使用时可以看情况过滤。
alpaca中文指令微调数据集 TODO 每份数据的生成方法待补充 清洗关键词及规则待补充 格式 与原始alpaca数据json格式相同 方法 数据生成 机器翻译 self-instruct 数据清洗 样例 [ {"instruction":"根据给定的坐标确定最近的机场。","input":"40.728157, -73.794853","output":"距给定坐标最近的机场是纽约市的拉瓜迪亚机...
2万条中文ChatGPT指令Alpaca数据集 喜爱 1 2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh 木 木洋 3枚 CC0 自然语言处理 0 5 2023-11-23 详情 相关项目 评论(0) 创建项目 文件列表 alpaca_gpt4_data_zh.json alpaca_gpt4_data_zh.json (33.47M) 下载问题...
【Alpaca中文指令微调数据集:持续更新的中文指令微调数据集,支持双语微调和数据修正】'Alpaca Chinese Dataset' GitHub: http://t.cn/A6Tcxz1H #中文数据集# #微调# #双语#
中文数据质量差是中文的问题么? | 快速扫了一遍 sharegpt,alpaca,med等等数据。 作为一个网络人口绝对值很高的语种。严格来说,不是从印刷时代历史积累下来的中文数据质量垃圾,而是搜集清洗整理中文数据的人太拉了。而这一点似乎才是中文科技工作者或者说科级领导不愿意承认的。说到数据质量反而是看到最近准备比赛的一...
我一直想翻译一下这个数据集 因为这个工作声称在智能调整了alpaca的问题难度之后,可以生成一个更难的问答数据集,并且在这个数据集下,微调得到的语言模型会更强(特别是遇到更难的问题上) 细看了这个数据集之后,我发现里面的指令也确实要更难一些。对这个数据集,我们已经完成了翻译。发布在了silk-road/Wizard-LM-Chi...
alpaca中文指令微调数据集Tr**cy 上传2.72MB 文件格式 zip 数据集 每份数据的生成方法待补充 清洗关键词及规则待补充 格式 与原始alpaca数据json格式相同 方法 数据生成 机器翻译 self-instruct 数据清洗 样例 [ { "instruction": "根据给定的坐标确定最近的机场。", "input": "40.728157, -73.794853", "output"...
alpaca_chinese_dataset 鲁迅说过:有多少人工,才有多少智能 当前的聊天对话模型数据集主要都是由英文构成,但是当前中文聊天模型构建的需求也较为迫切,因此我们将斯坦福的alpaca数据集进行中文翻译,并再制造一些对话数据,并开源提供。 此翻译并非完全的chatgpt机翻,会进行人工校验,遇到英文特异性表达的时候会变为较为中文...
会自动将你的修改更新到alpaca-chinese-52k.json中 数据集说明 本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。 原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此...