一、main loop 1.train.py Main() # 主循环 Train() 2.trainer.py Train_step() # fairseq会先计算所以采样sample的前馈loss和反向gradient Clip_norm # 对grad和求平均后进行梯度裁剪,fairseq中实现了两个梯度裁剪的模块,原因不明,后面都会介绍。 Optimizer_step # 利用grad更新参数 二、clip_norm_1 # 下...
--decay-steps 20000 --lr-scheduler tri_stage \ --dropout 0.1 --attention-dropout 0.1 --weight-decay 0.01 --clip-norm 0.5 \ --max-tokens 8192 --update-freq 32 --save-interval-updates 2000 \ # maximum number of tokens in a batch --max-epoch 20 \ --save-dir ./checkpoints --no-...
enfr使用interactivedecoder #!/usr/bin/env sh set -e # global flag FLAG=baseline SRC_LANG=en TGT_LANG=fr # user directory ROOT_DIR=/home/zhaoliang/fairseq-slim TMP_DIR=/home/zhaoliang/fairseq-slim/data-raw/en-vi-pure DATA_DIR=$ROOT_DIR/data-bin/$SRC_LANG-$TGT_LANG TRAIN_DIR=$ROOT...
--optimizer adam --adam-betas'(0.9, 0.98)'\ --clip-norm 0.0 --lr 5e-4 --lr-scheduler inverse_sqrt \ --warmup-updates 512 --dropout 0.3 --weight-decay 0.0001 \ --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \ --max-tokens 32768 \ --update-freq 2 \ --max-source...
# --arch:所使用的模型结构# --optimizer: 可以选择的优化器:adadelta, adafactor, adagrad, adam, adamax, composite, cpu_adam, lamb, nag, sgd# --clip-norm: 梯度减少阈值,默认为0# --lr: 前N个批次的学习率,默认为0.25# --lr-scheduler: 学习率缩减的方式,可选: cosine, fixed, inverse_sqrt, ...
$ mkdir -p checkpoints/fconv $ CUDA_VISIBLE_DEVICES=0 python train.py data-bin/iwslt14.tokenized.de-en \ --lr 0.25 --clip-norm 0.1 --dropout 0.2 --max-tokens 4000 \ --arch fconv_iwslt_de_en --save-dir checkpoints/fconv
--lr 0.25 --clip-norm 0.1 --dropout 0.2 --max-tokens 4000 \ --arch fconv_iwslt_de_en --save-dir checkpoints/fconv 默认情况下,python train.py会占用电脑中所有可用的GPU,可以用CUDA_VISIBLE_DEVICES环境来选择特定的GPU,或者改变使用的GPU数目。
--clip-norm 0.0 --criterion fc_loss 训练准则; --label-smoothing 0.1 --max-tokens 9000 一个batch最大的token数量; --werdur-max-predict 3 --assist-edit-loss --save-dir $SAVE_DIR 存储checkpoints的路径,checkpoint即模型; --user-dir $EXP_HOME/FastCorrect 一个包含扩展的python模块,这里的扩展...
$ mkdir -p checkpoints/fconv $ CUDA_VISIBLE_DEVICES=0 python train.py data-bin/iwslt14.tokenized.de-en \ --lr 0.25 --clip-norm 0.1 --dropout 0.2 --max-tokens 4000 \ --arch fconv_iwslt_de_en --save-dir checkpoints/fconv 默认情况下,python train.py将使用机器上的所有可用GPU。
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding (Xu et. al., 2021) VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding (Xu et. al., 2021) NormFormer: Improved Transformer Pretraining with Extra Normalization (Shleifer et. al, 2021) ...