alpaca_data_gpt4.json docker-compose.yml export_hf_checkpoint.py export_state_dict_checkpoint.py finetune.py generate.py lengths.ipynb pyproject.toml requirements.txt Breadcrumbs alpaca-lora / alpaca_data_gpt4.json Latest commit tloen Add LLaMA-GPT4 dataset fb9d983· Apr 7, 2023 HistoryHisto...
.../blob/main/data/trans_chinese_alpaca_data.json2.下载开源代码我们可以直接使用Alpaca-LoRA 的代码git clone https://github.com.../tloen/alpaca-lora.git把刚刚的数据集放到文件夹alpaca-lora目录下。...构造对应的python环境,同时安装依赖库:conda create -n alpaca python=3.9conda activate alpacacd ...
所以我们的目标就有了,用中文语料库让模型更好的支持中文,这个社区也给我准备好了,我们直接下载中文的语料库就好了,在本地执行 wget https://github.com/LC1332/Chinese-alpaca-lora/blob/main/data/trans_chinese_alpaca_data.json?
下载完成后放到根目录下/llama-7b-hf 训练模型 python finetune.py \ --base_model 'llama-7b-hf' \ --data_path './trans_chinese_alpaca_data.json' \ --output_dir './lora-alpaca-zh' 其他具体参数可以git链接 模型训练后, lora-alpaca-zh 下就有模型生成了 模型推理 Inference (generate.py) ...
data .keep alpaca_data.json alpaca_data.jsonl examples output .gitignore LICENSE README.md cover_alpaca2jsonl.py finetune.py infer.ipynb requirements.txt tokenize_dataset_rows.py Breadcrumbs ChatGLM-Tuning /data / alpaca_data.json Latest commit HistoryHistory File metadata and controls Code Bla...
https://github.com/LC1332/Chinese-alpaca-lora/blob/main/data/trans_chinese_alpaca_data.json?raw=true ,将后面模型训练用到的语料库下载到alpaca-lora根目录下(后面方便使用)。 语料库的内容就是很多的三元组(instruction,input,output,如下图所示),instruction就是指令,让模型做什么事,input就是输入,output是...
python finetune.py \ --base_model 'decapoda-research/llama-7b-hf' \ --data_path 'trans_chinese_alpaca_data.json' \ --output_dir './lora-alpaca-zh' 如果是多个GPU,则执行: WORLD_SIZE=2 CUDA_VISIBLE_DEVICES=0,1 torchrun \ --nproc_per_node=2 \ --master_port=1234 \ finetune.py ...
--data_path '/data/nfs/guodong.li/data/alpaca_data_cleaned.json' --output_dir '/home/guodong.li/output/lora-alpaca' --batch_size 256 --micro_batch_size 16 --num_epochs 2 当然也可以根据需要微调超参数,参考示例如下: python finetune.py ...
wget https://github.com/LC1332/Chinese-alpaca-lora/blob/main/data/trans_chinese_alpaca_data.json 注意下载完后,要进行检查,下载好的数据集文件内容格式是如下这样的,这个数据集可以更换成自己的(这一步很重要): 如果不是,建议直接执行如下命令,clone 含该项目的数据集到本地,从中取出数据集文件 ...
--data_path '/data/nfs/guodong.li/data/alpaca_data_cleaned.json' --output_dir '/home/guodong.li/output/lora-alpaca' --batch_size 256 --micro_batch_size 16 --num_epochs 2 当然也可以根据需要微调超参数,参考示例如下: python finetune.py ...