在本实验中,我们以 Llama 3.1 405B 为基础模型,并将其与三个较小的草稿模型 Llama 3.1-8B、Llama 3.2 3B 和 Llama 3.2 1B 相结合,以测试推测解码的加速比。我们在 4 个 AMD MI300X GPU 上进行了所有实验。表 2 和图 2 显示了启用和未启用推测解码的 Llama 3.1 405B 的端到端延迟比较。与较小
一、正文内容 大模型的推理是逐个token输出的,有一种推理加速的方法名为 推测解码;通过使用更快的模块生成可信的token序列,然后用大模型做一次推理,只要所有的token位置预测值都对,则节省了时间,实现了提速。示例如下:假设草稿模型生成了 5 个候选 token,主模型验证的过程如下: 输入:当前上下文:[Token_0] 草稿模型...
今年初,苹果提出了一种新的推测解码方法 Recurrent Drafter (ReDrafter),对原有方法进行了改进。通过将 RNN 草稿模型与动态树注意力机制相结合,ReDrafter 在每个生成步骤中最多可接受 3.5 个 token,超越了此前方法的水平。最近,苹果又宣布与英伟达展开深度技术合作,将其创新的 ReDrafter 推测解码技术整合到...
推测解码是一种“先推测后验证” (Draft-then-Verify) 的解码算法,涉及并行运行两个模型,可与i将语言模型推理的速度有望提高2-3倍。 自回归抽样 从语言模型生成文本的标准方法是使用自回归采样,其中解码K个标记需要对模型进行K次串行运行。 从像Transformers 这样的大型自回归模型中进行推理是缓慢的——解码K个令...
推测解码(Speculative Decoding)是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下,获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。针对如此妙的方法,香港理工大学、北京大学、MSRA 以及阿里共同推出了一篇关于推测解码的综述, 帮助读者了解推测解码的...
推测性解码(Predictive Decoding)是一种在自然语言处理(NLP)领域中使用的解码策略,特别是在机器翻译和文本生成任务中。它指的是在生成目标文本时,解码器会考虑之前已经生成的词或者短语,来预测接下来可能生成的词或短语。这种方法可以提高翻译或生成文本的流畅性和准确性。推测性解码是一种用于大语言模型(LLM)...
今天,我们将深入探讨一种名为推测性解码(Predictive Decoding)的前沿技术,它如同为MLLMs插上了翅膀,让推理过程更加高效。 一、引言 多模态大型语言模型,如LLaVA、GPT-4等,通过融合图像、文本、语音等多种模态的信息,实现了对复杂场景的深入理解与智能交互。然而,这类模型在处理大量数据时,往往面临着自回归生成和...
推测解码(Speculative Decoding)是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下,获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。针对如此妙的方法,香港理工大学、北京大学、MSRA 以及阿里共同推出了一篇关于推测解码的综述, 帮助读者了解推测解码的前世今...
具体实现方案为:将第一词元序列输入第一大模型,得到第二词元序列;其中,该第一大模型是根据第二大模型量化得到的,该第一词元序列基于多模态数据得到;将该第一词元序列和该第二词元序列输入该第二大模型,得到第三词元序列;根据该第二词元序列和该第三词元序列进行验证,得到推测解码结果。天眼查资料显示...
推测解码 现在让我们加载推测解码的辅助模型。在此示例中,我们将使用 Whisper 蒸馏后的版本 distil-large-v2。蒸馏模型只使用了 Whisper 中 32 个解码器层中的 2 个编码器。因此,它比 Whisper 快 6 倍,同时在分布测试集上的 WER 性能相比于蒸馏前仅下降了 1%。这使其成为理想的辅助模型,因为它在转录准确...