5. 常见的LLM有哪些,做了哪些改进? 6. 位置编码:Bert,LLAMA的位置编码 7. 激活函数概念,ReLU, SiLU 8. Transformer推理加速技术?vLLM等 9. deepseek了解吗?讲一个创新点 10. FlashAttention原理 手撕1. 合并区间 #算法 #面经 #大模型面试 #校园招聘 #春招 #大模型 +5 发布于 2025-02-27 22:06・...
这个方法可以提升BERT在小样本场景的表现,但效果不稳定,多一个词或少一个词都会影响效果。这也是p-t...
6. 位置编码:Bert,LLAMA的位置编码 7. 激活函数概念,ReLU, SiLU 8. Transformer推理加速技术?vLLM等 9. deepseek了解吗?讲一个创新点 10. FlashAttention原理 手撕1. 合并区间 #算法 #面经 #大模型面试 #校园招聘 #春招 #大模型 +5 发布于 2025-02-27 22:09・IP 属地上海...