alpaca_data_zh_51k_512这52K数据所对应的alpaca_data.json文件是一个字典列表,每个字典包含以下字段: 链接: pan.baidu.com/s/1kjVNjJ 提取码: kwgq 3.2、数据集介绍 Stanford Alpaca数据集格式如下: [ {"instruction" : ..., "input" : ..., "output" : ...}, ... ] 其在参数介绍: ...
Chinese-LLaMA-Alpacaalpaca_data_zh_51kymcui(讯飞)51kCNMTSIgeneral instructtext-davinci-003 Luotuo-Chinese-LLM骆驼trans_chinese_alpaca_dataLC1332(商汤)52kCNMTSIgeneral instructtext-davinci-003 Natural InstructionsAllen AI 61 task|1.5k taskAllen AI5040134MLMTCOLdiverse nlp taskshuman annotated datasets...
alpaca_zh_51k 使用gpt-3.5翻译的Alpaca数据 51K stem_zh_instruction 使用gpt-3.5爬取的STEM数据,包含物理、化学、医学、生物学、地球科学 256K ruozhiba_gpt4_turbo 使用gpt-4-turbo-2024-04-09获取的ruozhiba问答数据 2449 常见问题 请在提交Issue前务必先查看FAQ中是否已存在解决方案。具体问题和解答请参考...
在词表扩充时产出chinese_tokenizer_path=./scripts/merge_tokenizer/merged_tokenizer_hf# 预训练数据目录,会寻找该目录下的所有 .txt 格式文件dataset_dir=./data# 存放数据缓存文件的目录data_cache_dir=./data_cache
[博客翻译]PyTorch原生架构优化:Torchao [博客翻译]数字签名及其风险规避方法 [博客翻译]管理乌托邦的破灭:当无能管理层摧毁伟大企业之时 推荐笔记 探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台 解决Pytorch 分布式并行DDP卡死挂起的问题 Reaper 入门 从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理...
Whitespace Ignore whitespace Split Unified 1,443 changes: 16 additions & 1,427 deletions 1,443 data/alpaca_data_zh_51k.json Load diff Large diffs are not rendered by default. 0 comments on commit dafc0f7 Please sign in to comment. Footer...
alpaca_zh_51k 使用gpt-3.5翻译的Alpaca数据 51K stem_zh_instruction 使用gpt-3.5爬取的STEM数据,包含物理、化学、医学、生物学、地球科学 256K ruozhiba_gpt4_turbo 使用gpt-4-turbo-2024-04-09获取的ruozhiba问答数据 2449 常见问题 请在提交Issue前务必先查看FAQ中是否已存在解决方案。具体问题和解答请参考...
Chinese-LLaMA-Alpacaalpaca_data_zh_51kymcui(讯飞)51kCNMTSIgeneral instructtext-davinci-003 Luotuo-Chinese-LLM骆驼trans_chinese_alpaca_dataLC1332(商汤)52kCNMTSIgeneral instructtext-davinci-003 Natural InstructionsAllen AI 61 task|1.5k taskAllen AI5040134MLMTCOLdiverse nlp taskshuman annotated datasets...
alpaca_zh_51k使用gpt-3.5翻译的Alpaca数据51K stem_zh_instruction使用gpt-3.5爬取的STEM数据,包含物理、化学、医学、生物学、地球科学256K ruozhiba_gpt4使用GPT-4o和GPT-4T获取的ruozhiba问答数据2449 请在提交Issue前务必先查看FAQ中是否已存在解决方案。具体问题和解答请参考本项目📖GitHub Wiki ...
alpaca_zh_51k 使用gpt-3.5翻译的Alpaca数据 51K stem_zh_instruction 使用gpt-3.5爬取的STEM数据,包含物理、化学、医学、生物学、地球科学 256K ruozhiba_gpt4 使用GPT-4o和GPT-4T获取的ruozhiba问答数据 2449 常见问题 请在提交Issue前务必先查看FAQ中是否已存在解决方案。具体问题和解答请参考本项目 📖GitHu...