7. 介绍一下TFIDF 8. bert预训练方法 9. MLM 和 NSP都有什么缺点 10. 介绍transformer以及multi attention,为什么用多头 11. 了解什么attention的变种 ? 12. flash attention解释一下? 13. llama中用的attention是? 14. llama和transformer的区别 🌞 代码题 ...