假设有1024个训练样本,batch_size=8,epochs=10,那么:每个epoch会训练1024/8=128个iteration,全部1024个训练样本会被这样训练10次,所以一共会有1280个iteration,发生1280次前向传播和反向传播。注意,由于Batch Normalization层的存在,batch_size一般设置为2的倍数,并且不能为1。 总结一下: Batch使用训练集中的一小部...
x=tf.reshape(inputs,[-1,64*64,256]) # 设置全1的mask参数 mask=tf.ones((batch_size,64*64)) attn_output=self.mha(x,x,mask=mask) attn_output=self.dropout1(attn_output,training=training) out1=self.layernorm1(inputs+attn_output) ffn_output=self.ffn(out1) ffn_output=self.dropout2(f...