01 信息分析:在微调LoRA时,遇到特别长的输入文本,确实需要调大max source length和max target length。
pre_seq_len是指自然语言指令的长度,而max_source_length是指整个输入序列的最大长度。一般来说,pre_seq_len应该小于或等于max_source_length,因为输入序列除了包含指令之外,还可能包含其他内容,例如上下文信息或对话历史。如果pre_seq_len大于max_source_length,那么模型就无法接收到完整的指令,也就无法正确地生成输出...
--overwrite_output_dir \ --max_source_length 64 \ --max_target_length 128 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 16 \ --predict_with_generate \ --max_steps 100 \ --logging_steps 10 \ --save_steps 50 \ --learning_r...
--max_source_length 512 \ --max_target_length 512 \ --per_device_train_batch_size 16 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 1 \ --predict_with_generate \ --logging_steps 10 \ --save_steps 1000 \ --learning_rate $LR \ --fp16 修改main.py文件中的 num...
preprocess(examples): max_seq_length = cfg.max_source_length + cfg.max_target_length model...
可能还需要增大max_source_length和max_target_length来匹配你自己的数据集中的最大输入输出长度。并将模型路径THUDM/chatglm2-6b改为你本地的模型路径。 1、train.sh 文件修改 PRE_SEQ_LEN=32 LR=2e-2 NUM_GPUS=1 torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py ...
--max_source_length 64 \ --max_target_length 64 \ --per_device_train_batch_size 16 \ --per_device_eval_batch_size 16 \ --gradient_accumulation_steps 1 \ --predict_with_generate \ --max_steps 3000 \ --logging_steps 10 \
--max_source_length 64 \ --max_target_length 64 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 16 \ --predict_with_generate \ --max_steps 3000 \ --logging_steps 10 \
max_source_length 指定输入序列的最大长度为512 max_target_length 指定输出序列的最大长度为512 per_device_train_batch_size 指定每个训练设备的训练批次大小为1 per_device_eval_batch_size 指定每个评估设备的评估批次大小为1 gradient_accumulation_steps 指定梯度累积的步数为16。在每个更新步骤之前,将计算并累积...
seq_length = max_source_length + max_target_length + 1 重新设置试了不行 已采纳 2楼回复于2024-01-08 11:15:10 hid_zo9j-xwsxny7y7k 帖子 3 回复 3 昨天按回复方法尝试了,出现如下报错: - Ascend Error Message: --- EI9999: Inner Error! EI9999 connected p2p timeout, timeout:7200 s...