能否跟踪到具体卡在了IMG_conv_3x3_i8_c8s函数里的哪行代码还是跑飞了?heap, stack等是否都正常?
conv3x3s2进行过理论分析,由于stride2数据重叠部分少,用winograd的加速比不高,所以不推荐用winograd, 建议直接用im2col+gemm。
ncnn is a high-performance neural network inference framework optimized for the mobile platform - arm neon optimization for conv3x3s1 winograd42 (#2664) · Tencent/ncnn@ab56083
与这些工作相反,我们重新思考了深度学习中最简单但最快的模块之一——3x3 卷积,以构建一个扩大的纯卷积扩散模型。我们首先发现编码器-解码器沙漏设计优于 Conv3x3 的可扩展各向同性架构,但仍低于我们的预期。为了进一步改进架构,我们引入了稀疏跳过连接以减少冗余并提高可扩展性。基于该架构,我们引入了条件改进,包括...