在使用vllm运行xverse/XVERSE-13B-256K时(代码如下): qwen_model = AutoModelForSequenceClassification.from_pretrained( args.pre_train, trust_remote_code=True, attn_implementation="flash_attention_2", torch_dtype=torch.bfloat16, device_map="auto", # balanced_low_0 num_labels=5 ) 报错如下 Trac...
去flash attention官网下载安装包, 注意需要根据自己的torch版本,cuda版本(可以选择低于自己cuda版本的) 和python版本进行选择. 同时选择abiFALSE. 右键,复制链接, 在linux中使用wget + 链接进行whl安装包的下载: wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.6.3/flash_attn-2.6.3+cu...
I found I was unable to import flash_attn_cuda after running python setup.py install. --- details --- I run python setup.py install with a prefix pointing to the root dir of flash-attention. I set PYTHONPATH=$PWD also with the absolute path of the root dir of flash-attention. Any...
The error happens whenflash_attn_cuda.fwd_kvcacheis called in/attention/backends/flash_attn.py Running the test withVLLM_ATTENTION_BACKEND=XFORMERSpasses. Could this bug be related to flash attention? khluuadded thebuglabelMay 31, 2024 ...
同样的错误也发生在我身上。这个bug还在持续吗?
RuntimeError: Failed to import transformers.models.llama.modeling_llama because of the following error (look up to see its traceback):/opt/miniconda3/envs/llama_xyj/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol: _ZN3c104cuda9SetDeviceEi ...
DLL load failed while importing flash_attn_2_cuda: 找不到指定的模块。 一开始排查是以为transformers的版本不对,先确定了transformers的版本,transformers的版本应该大于4.35.0 把transformers升级为4.35.0后仍然报错 接着排查cuda和torch的版本 最后发现是cuda版本与torch版本不匹配 ...
DLL load failed while importing flash_attn_2_cuda: 找不到指定的模块。 一开始排查是以为transformers的版本不对,先确定了transformers的版本,transformers的版本应该大于4.35.0 把transformers升级为4.35.0后仍然报错 接着排查cuda和torch的版本 最后发现是cuda版本与torch版本不匹配 ...
从异常上看,提示flash_attn_2_cuda.cpython-38-x86_64-linux-gnu.so这个库异常,这种未定义符号的异常,一般都是编译so时和当前环境不一致导致的 具体到flash_attn这个库,如果不是从源码编译,其对cuda版本和torch版本都是有要求的,所以在官方github的release上可以看到官方会提供很多不同cuda和torch版本的whl文件,...