解决方法是手动上flash attention的代码仓库上克隆代码,https://github.com/Dao-AILab/flash-attention, 然后通过执行pythonsetup.pyinstall的方式来安装 期间还能遇到一个错误是报没有git,这时候就需要安装一个git 3、安装完flash_attn之后还是会报 import flash_attn rotary fail, please install FlashAttention rotary...
attn_output = xops.memory_efficient_attention( query_states, key_states, value_states, attn_bias=xops.LowerTriangularMask() ) else: with torch.backends.cuda.sdp_kernel(enable_flash=True, enable_math=True, enable_mem_efficient=True): attn_output = F.scaled_dot_product_attention(query_...