随着提问的问题的增多,GPU内存占用也会增加,内存会溢出,有没有办法,每次推理完成后,释放下内存,我使用torch.cuda.empty_cache()不起作用。 Solutions 怎么修改代码,可以在推理内存满了后,释放下内存,继续推理 Additional context No response 要同时清空history才行吧,要不下次推理会把历史对话带上,依然OOM ...