上周有同学参加了阿里大模型算法工程师的面试,根据他的回忆整理了相关的问题。供大家参考讲一下Transformer大概架构分别讲讲 encoder-only、decoder-only、encoder-decoder不同架构在实际应用的使用场景。llama2网络架构?使用了哪些注意力机制?手写实现下分组注意力。