5. 常见的LLM有哪些,做了哪些改进? 6. 位置编码:Bert,LLAMA的位置编码 7. 激活函数概念,ReLU, SiLU 8. Transformer推理加速技术?vLLM等 9. deepseek了解吗?讲一个创新点 10. FlashAttention原理 手撕1. 合并区间 #算法 #面经 #大模型面试 #校园招聘 #春招 #大模型 +5 发布于 2025-02-27 22:06・...
这个方法可以提升BERT在小样本场景的表现,但效果不稳定,多一个词或少一个词都会影响效果。这也是p-t...
BERT LLM(大型语言模型) 基于LLM的基座,比BERT,兜底能力会更强,精度方面有提升吗?微调数据少的时候,据说有一定提升?任务型对话,两个BERT,分别做意图分类和槽位提取显示全部 关注者1 被浏览12 关注问题写回答 邀请回答 好问题 添加评论 分享 ...
6. 位置编码:Bert,LLAMA的位置编码 7. 激活函数概念,ReLU, SiLU 8. Transformer推理加速技术?vLLM等 9. deepseek了解吗?讲一个创新点 10. FlashAttention原理 手撕1. 合并区间 #算法 #面经 #大模型面试 #校园招聘 #春招 #大模型 +5 发布于 2025-02-27 22:09・IP 属地上海...