--int8:启用INT8精度,可以进一步提高推理性能,但需要进行量化校准,可能会影响模型的精度。 --workspace:指定TensorRT的工作空间大小,可以根据模型的大小和推理的需求进行调整。 --device:指定使用的GPU设备编号,例如--device=0。 使用trtexec进行模型推理的过程非常简单,只需要将模型转换为TensorRT格式,然后使用trtexec进...
./trtexec --onnx=model.onnx --saveEngine=xxx.trt --int8 --fp16 trtexec还提供了--best参数,这相当于--int8 --fp16同时开。 一般来说,只开fp16可以把速度提一倍并且几乎不损失精度;但是开--int8会大大损失精度,速度会比 fp16 快,但不一定能快一倍。 int8 优化涉及模型量化,需要校准(calibrate)提...