LOCAL_MODEL_QUANT="FP16"# 默认 "FP16" "INT4" 启用量化INT4版本 "INT8" 启用量化INT8版本 116116 117+ # 设置deepseekcoder运行时输入的最大token数(超过4096没有意义),对话过程爆显存可以适当调小 118+ MAX_INPUT_TOKEN_LENGTH=2048 117119
wawei今年6月才发了个论文介绍了HiF8(Hifloat8)这个自家昇腾用的专用算子,还在论文里直接和Hopper FP8做对比,明显短时间内还是人工智能加速计算All in 昇腾,到他的嘴里就变成了910C是过渡方案,明年转GPGPU,单卡2P FP16算力了,他该不会真觉得昇腾的适配已经做好了,GPGPUwawei搞起来就像画地图一样简单吧图:910...
LOCAL_MODEL_QUANT="FP16"# 默认 "FP16" "INT4" 启用量化INT4版本 "INT8" 启用量化INT8版本 # 设置deepseekcoder运行时输入的最大token数(超过4096没有意义),对话过程爆显存可以适当调小 MAX_INPUT_TOKEN_LENGTH=2048 # 设置gradio的并行线程数(不需要修改) ...
Fork0 Star0 Code Pull requests Actions Projects Security Insights Additional navigation options Commit552219f Browse files jlw463195395 committedDec 1, 2023 加入了int4 int8量化,加入默认fp16加载(in4和int8需要安装额外的库,目前只测试加入deepseek-coder模型,后续测试会加入更多) ...