让大模型成为一个更好的排序器 | 这篇文章中提出了一个ALRO的框架,用于提高大型语言模型在推荐排序中的效果。它通过引入软lambda损失(Soft Lambda Loss)和排列敏感学习机制(Permutation-Sensitive Loss)来弥合LLMs的能力和推荐系统中排名任务的细微需求之间的差距。
转换和组合奖励,对齐大模型的新方法 | 一种常见的将语言模型与人类偏好对齐的常见方法是首先从偏好数据中学习奖励模型,然后使用这个奖励模型来更新语言模型。 来自芝加哥大学、Google Research、Google DeepMind 和斯坦福大学的研究团队研究了这种方法中出现的两个问题。首先,奖励模型的任何单调变换都保留了偏好排名,是否存...
其次,直接偏好优化算法使得在除了监督式模仿之外的其他目标上对语言模型进行简单微调成为可能,使用模型响应可能性的偏好排名。我们展示了通过自动生成的事实性偏好排名(通过现有检索系统生成或我们新颖的无检索方法生成)进行学习,显著提高了Llama-2在保留主题上生成声明的事实性(正确声明的百分比)。在7B规模上,与Llama-2-...
基于LLM的推荐系统在软件购买方面的潜力——大模型应用 论文地址:链接 推荐系统无处不在,从Spotify的歌单推荐到亚马逊的产品推荐。然而,这些系统通常无法捕捉用户的偏好并生成通用的推荐,这取决于方法论或数据集。大语言模型(LLM)的最新进展为分析用户查询提供了有希望的结果。然而,如何利用这些模型来捕捉用户的偏好和提...
【IBM提出高效大模型基准测试:成本大大降低,计算量减少100多倍】 为了在保持可靠性的同时降低语言模型评估的计算成本,IBM Research 提出了高效基准测试。以 HELM 基准测试为例,研究人员深入研究了基准测试的不同选择是如何影响计算和可靠性之间的权衡。 为了评估这些决策的可靠性,研究人员引入了一种新的度量标准——决...