按照之前了解到baichuan1的情况,24G显存非int量化是跑不了13b(fp16标准版)的,因为实在不想用int4向精度妥协,抱着试试看的想法走了一遍部署流程。结果还真成了。 机器配置 Onda b760h5,32G DDR5-5600,i312100f散,梵想2TB,读取超过7000MB/s那款,显卡是去年买的3090,整机加起来不到1w,系统装的E
Reproduction 部署命令: model='/apply/model/original/Baichuan2-13B-Chat' CUDA_VISIBLE_DEVICES=3 /root/miniconda3/envs/p312lmdeploy/bin/python api_server.py --server-port 23353 --model_path $model --model-name baichuan2-13b-chat --cache-max-entry-count 0.97 --enable-prefix-caching --tp ...
tp=2) gen_config = GenerationConfig(top_p=0.8, top_k=40, temperature=0.8, max_new_tokens=1024) print("11111111111") pipe = pipeline('/root/autodl-tmp/baichuan-inc/Baichuan2-13B-Chat', backend_config=backend_config) print
部署后baichuan2-13B似乎没有对话能力,尝试多个问题并没有进行回答,除了回答“你是谁”这个问题,其他的都回答不好 3.chatweb文档存在细节问题,run_char_server.py 应为 run_chat_server.py https://mindformers.readthedocs.io/zh-cn/latest/docs/feature_cards/Chat_Web.html 创建了Question...
因为ChatGLM2目前开放的就是6B和130B两个版本,但是130B的对于我们来说已经远超定义的选择范围,所以就放弃ChatGLM2了。 试用Baichuan2-13B 百川大模型选型 百川大模型是我们一个在老牌中厂的小伙伴给我们推荐的,据说他们内部已经在实用,而且效果不错,于是我就开始转向Baichuan2-13B。