大家知道 Sequential 下只能神经网络只能逐一执行每个层。PyTorch可以继承 nn.Module 来自定义 forward 如何执行。同样,MXNet 可以继承 nn.Block 来达到类似的效果。 损失函数和优化算法 PyTorch: loss_fn = nn.CrossEntropyLoss()trainer = torch.optim.SGD(net.parameters(), lr=0.1) 1. MXNet: loss_fn = glu...