困惑度直观理解 困惑度(Perplexity, PPL)是一种用来评价语言模型好坏的指标。 直观上理解,当我们给定一段非常标准的,高质量的,符合人类自然语言习惯的文档作为测试集时,模型生成这段文本的概率越高,就认为模型的困惑度越小,模型也就越好。 假如我们的测试文档只有下面一句话: “爱你就像爱生命。” 现在我们有两个语...
PPL(q) = 2^{H(p, q)} 由于真实概率分布未知,所以这里我们使用经验分布来代替真实概率分布,使用前面推导的结论,对于一个样本空间大小为 n = \mid \mathcal{X} \mid 的离散型随机变量 X ,其经验分布的概率质量函数为 \hat{p}(X = x) = \frac 1 n ,于是有 \begin{aligned} H(\hat{p},q)...
预训练之后,需要评价模型的性能。LM的常用评价指标PPL主要用于评价LM生成的句子是否流畅和通顺。除此之外,更重要的是评测LLM的知识蕴含能力,包括常识推理,问答,代码处理,数学推理,阅读理解等多种能力。 3.1 prompt设计 和以往专家模型的“预训练+微调”范式不同,当前LLM主要采用“预训练+上下文学习”的范式,因此需要对...
除了低成本的训练范式,该团队还做出了另一项贡献,即为 LLM 的智商(IQ)评估提出了一套系统性的基准。 之前已有研究表明:尽管困惑度(PPL)指标能在一定程度上反映生成文本的质量,但却并不可靠。另一方面,LLM 的训练数据规模非常庞大,以至于我们难以辨别模型究竟只是在引述知识数据,还是真的实现了类似人类的推理、分析和...
PPL.LLM 在做的另外一项优化,就是 KV 缓存的量化,在服务端推理的过程当中,KV 缓存会占据绝大部分的显存空间,这会严重限制系统的并发请求数量。 可以看到,在服务端,特别是 A100、H100 这样的大显存的服务器上运行如 7B 模型这样的大语言模型时,它的 KV 缓存将占到 84% 的显存空间,而对于如 176B 这样的千...
PPL 等指标的低效性实际上源于 LLM 与 MLLM 在预训练目标上的本质差异。LLM 的预训练主要聚焦于学习语言的基本结构,而 MLLM 则更强调不同模态之间的对齐。 通过使用多个来源的图像和文本数据,并在 LLaVA-v1.5 的基座大模型输入层可视化这些特征分布,研究者们可以看到,如左图所示,尽管图像和文本的内容丰富多样,...
比起预训练(Pretrain)环节里相对明确的评价指标(如PPL、NLL等), Instruction 环节中的评价指标比较令人头疼。 鉴于语言生成模型的发展速度,BLEU 和 ROUGH 这样的指标已经不再客观。 一种比较流行的方式是像 [FastChat] 中一样,利用 GPT-4 为模型的生成结果打分, ...
(2)(这段话来源于[21])MoverScore;PRISM;BARTScore 及其增强版本:BARTScore+CNN 和BARTScore+CNN+Para;BERT-R;GPT-2;USR;S-DiCoh;FED;DynaEval;SelfEval;PPL;iBLEU;BERT-iBLEU;ParaScore。需要注意的是,Shen 等人还使用了不需要参考文本的 BERTScore 和 ParaScore的版本,分别表示为 BERTScore.Free 和 Par...
之前已有研究表明:尽管困惑度(PPL)指标能在一定程度上反映生成文本的质量,但却并不可靠。另一方面,LLM 的训练数据规模非常庞大,以至于我们难以辨别模型究竟只是在引述知识数据,还是真的实现了类似人类的推理、分析和概括能力,而这些能力正是这项研究定义 IQ 的基础。一些常用的评估指标(用于英语的 MMLU 和用于汉语的 ...
Learn Positional Information》一文通过实验表明,不使用位置编码的LLM相对于有位置编码的LLM在ppl指标上...