# 1. 从“Baby-llama2-chinese Corpus”的百度网盘中下载分词处理后的预训练语料。(按需求下载-共634亿tokens,文件总大小为118G) # 2. 将下载好的数据放到./data/目录下 # 3. 根据下载的语料,修改data_process.py中的data_path_list部分 # 4. 运行data_process.py,在./data/目录下生成pretrain_data....
# 1. 从“Baby-llama2-chinese Corpus”的百度网盘中下载分词处理后的预训练语料。(按需求下载-共634亿tokens,文件总大小为118G) # 2. 将下载好的数据放到./data/目录下 # 3. 根据下载的语料,修改data_process.py中的data_path_list部分 # 4. 运行data_process.py,在./data/目录下生成pretrain_data.bi...
# 1. 从“Baby-llama2-chinese Corpus”的百度网盘中下载分词处理后的预训练语料。(按需求下载-共634亿tokens,文件总大小为118G) # 2. 将下载好的数据放到./data/目录下 # 3. 根据下载的语料,修改data_process.py中的data_path_list部分 # 4. 运行data_process.py,在./data/目录下生成pretrain_data.bi...
#1. 从“Baby-llama2-chinese Corpus”的百度网盘中下载分词处理后的预训练语料。(按需求下载-共634亿tokens,文件总大小为118G)#2. 将下载好的数据放到./data/目录下#3. 根据下载的语料,修改data_process.py中的data_path_list部分#4. 运行data_process.py,在./data/目录下生成pretrain_data.bin文件python...