1️⃣training-free设定:模型为LLaMa3,在平均KV大小与StreamingLLM相近或更低时,GSM8K高出约7个点,MMLU高出1.3个点; 2️⃣从头训练设定:模型为Pythia-160m,只用30%的KV cache的条件下,效果甚至好于vanilla模型;使用混合架构,如第一层使用full attention,可以进一步涨点(表中带H的模型) #职场干货#享受自...
✌️细读前点个免费的关注和收藏,北大小哥Sam每天带你读LLM和推荐广告前沿论文,侃算法岗面经&成长经验 💻方案: 1️⃣主动学习(样本选择)的原则:如p1上的公式,样本可学习程度 = teacher loss - student loss,即大参数量教师模型和小参数量学生模型预测性能的gap 2️⃣Batch采样:从大小为B的原始的supe...