Ktransofmers又可以捡起来用了,只不过这个是 deepseek v2的图,v3和deepseek R1也都可以用,attention部分在gpu,moe部分在cpu(share experts也在gpu),靠amx指令集来加速。不过moe从160 experts变256了,对cpu显存有更大的要求,gpu部分就还好,int4下也一秒也能推10个字,大概要40g左右的gpu显存+300g左右的cpu内存...
云中笑看:何时仗尔看南雪,我与梅花两白头。。云中笑看入驻抖音,TA的抖音号是dyje7fbd7uvg,已有100个粉丝,收获了2338个喜欢,欢迎观看云中笑看在抖音发布的视频作品,来抖音,记录美好生活!